前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇好的日志文章范文,相信會為您的寫作帶來幫助,發現更多的寫作思路和靈感。
關鍵詞:天氣雷達;拼圖資料;日志;監控;統計
中圖分類號:TP393文獻標識碼:A文章編號:1009-3044(2008)14-20814-02
新一代天氣雷達在臨近預報中發揮著重要的作用[1]。但由于單部新一代天氣雷達的有效探測半徑僅為230km,在利用其進行災害性天氣系統的監測和預警時,需要上下游氣象站進行聯防,而短時強天氣具有發展速度快、強度強的特點,因此要想利用新一代天氣雷達回波對中尺度天氣系統的發展和移動進行監測和預報,就必須進行拼圖,擴大其覆蓋范圍[2]。中國氣象局要求各雷達站1小時將5個雷達產品通過省級通信節點機上傳至國家氣象信息中心,統一收集后進行全國和區域的雷達產品拼圖,并將傳輸質量納入到各省的年終目標考核中。如何提高傳輸時效、質量,將直接影響到新一代天氣雷達效益的發揮和全省乃至全國的防災減災。為確保轄區各站雷達拼圖資料 及時準確上傳,研制開發了省級雷達拼圖資料監控與統計系統,可以對報文傳輸及線路狀況進行有效監控,實現網絡通信業務的自動化,提高業務工作的效率[3]。
1 系統設計思路
本系統實現對遼寧省沈陽、營口新一代天氣雷達站拼圖資料上行傳輸情況實時監控和傳輸統計。系統定時讀取9210系統中相應日志文件,和該時次所要上傳文件名比較,若日志文件中有記錄,表明已通過9210系統進行上傳,則屏幕上顯示綠燈;如果日志文件中沒有記錄,說明該時次雷達拼圖資料報還沒有上傳,則在屏幕上顯示紅燈并顯示未上傳的資料名稱,提醒值班人員采取相應的措施。系統每天08時(北京時)對前一天的雷達拼圖資料上傳情況入庫,并建立統計界面,可進行單站、多站或任意時間段傳輸百分率的圖表統計結果。
2 系統基本構成
2.1 系統的流程圖
雷達站將拼圖資料上傳至通信節點機,通過規定進程將資料轉發至國家氣象信息中心寬帶服務器,同時生成日志文件。實時監控對日志文件進行操作,傳輸質量監控首先將日志信息添加至數據庫,然后使用SQL查詢統計結果,進行圖表顯示。(圖1)
2.2 系統環境
雷達拼圖資料監控與統計系統由通信節點機(UNIX操作系統)、監控計算機組成,二者之間運行FTP協議。通信節點機具有每日(世界時)的日志文件,可保留30天內的日志文件。監控計算機采用Windows XP操作系統,安裝監控和統計程序。軟件開發在Windows下進行選擇VB和Delphi語言進行混合編程,后臺數據庫采用microsoft的SQL server2000數據庫。
3 系統功能
系統分兩部分:一是根據各種報文的時效要求,進行定時的查詢監控,保證該報上傳的及時性;同時為了操作方便,設置了刷新功能,對沈陽、營口2站雷達拼圖資料的實時監控,進行圖形化界面提示和文本信息的顯示;二是對任意時段內的沈陽、營口2站傳輸質量進行統計,生成圖表直觀顯示,并可以生成文本文件進行上報。
4 系統的技術實現
4.1 日志文件的下載
按照中國氣象局的傳輸要求:雷達GIF產品在正點后15分種內上傳為及時報,在1小時內為逾限報,超過1小時視為缺報[4]。因此編制程序,在正點后10分鐘自動從通信節點機的“/bcsy/mioswork/log”目錄利用FTP協議下載當天的日志文件。日志文件命名規則為“comYYYYMMDDsnd.log”(其中YYYYMMDD代表年月日)。
4.2 實時監控
每小時的5個產品文件名均是固定的,命名規則為RAD__CCYYGGgg.XXX(其中RAD是固定的,CC為臺站代號,如沈陽為SY,YY為編報日期,GG為編報時次,gg為編報分鐘,正點觀測編00),在下載完日志文件后,將此日志文件作為文本文件打開,利用VB的InStr函數檢查當前時次的產品是否存在于日志文件中。若存在,則代表已成功上傳,狀態燈顯示為綠色;若不存在,則代表未進行上傳,狀態燈顯示為紅色,并將未上傳產品的站號、時次、產品類型添加至列表框中,同時以聲音形式提醒值班員(圖2)。實時監控界面代有刷新按鈕,可對當前上傳情況進行了解。
4.3 日志信息入庫
系統設置在每日8:30(世界時0:30)下載前一天的日志文件。SQL數據庫的表按照文件名、文件大小、文件接收時間、文件發送日期、發送優先級、發送線路建立字段。在Delphi中使用ADOConnection組件進行數據庫的連接,adoquery組件進行日志信息的入庫。首先以文本方式打開日志文件,將其中的一行分解為對應字段,使用SQL語句的append方法將上傳信息添加到數據庫中,進行更新。
4.4 傳輸質量統計
在雷達拼圖傳輸質量統計界面中,可選擇任意時段內的任意站次雷達拼圖傳輸質量進行統計。程序利用ADOConnection組件進行數據庫的連接,使用SQL查詢語句對數據庫進行多項查詢,并將查詢統計結果輸出到memo組件中,可顯示統計站次、統計時段、應上傳文件數、及時報(含百分率)、逾限報(含百分率及逾限報站次)、缺報(含百分率及缺報站次);同時利用chart組件進行餅圖的顯示,如2008年3月1日至2008年3月7日沈陽、營口兩站的雷達拼圖傳輸質量統計圖。(圖3)
5 結束語
本系統由于采用SQL網絡數據庫,可以安裝在局域網內任何一臺計算機上。運行以來,對雷達拼圖資料傳輸質量的提高起到很好的推動作用,傳輸及時率也穩定在99%以上。系統操作簡單,雷達報上行傳輸情況一目了然。運行情況很好,使值班人員及時掌握雷達報的上傳情況;另外本軟件模塊化的設計,移植性高,程序加以修改擴充后,可應用于其它雷達站資料的上行監控。
參考文獻:
[1] 程向陽,王興榮,胡雯,等. 雷暴天氣在多普勒雷達資料上的前兆特征分析[J]. 氣象科學,2003,23(4):485-490.
[2] 陳傳雷,陳艷秋,孫欣. 多普勒雷達回波在遼寧一次暴雨過程中的應用分析[J]. 氣象與環境學報,2006,22(5):28-31.
[3] 呂紅梅,楊文霞,張玉潔,等. 雷達觀測資料傳輸監控軟件的開發與研究[J]. 山東氣象,2005,25(1):35-35.
關鍵詞:網絡安全;用戶上網行為;數據分析
中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2016)15-0117-03
隨著互聯網技術的發展,各種網絡設備功能越來越來完善,設備性能管理方面也比較智能化,在網絡管理上發生了變化,不再像過去花費大量的人力忙于維護網絡設備,而是要分析用戶的上網行為,為用戶提供一個安全穩定的網絡環境。目前所得到的用戶上網行為都是從網絡設備上獲取的,這些數據中存在臟數據[1],臟數據不符合要求,對于分析用戶上網行為存在干擾。并且這些數據量非常大,而且還分散在不同的文件中,不便于以后的存儲和運算。如何對這些數據進行分類、清洗并進行有效的存儲是網絡行為分析的一個重要問題。
文章首先介紹python程序設計語言的相關組件和功能架構,在此基礎上,設計并實現了基于python語言的分析用戶上網行為的分類與清洗系統,驗證了系統的有效性和穩定性,并對數據的處理時間和數據的壓縮比例進行分析。
1 Python程序的介紹
Python是一種解釋型交互式、面向對象、動態語義、語法優美的腳本語言。自從1989年Guido van Rossum發明,經過幾十年的發展,已經同Tcl、perl一起,成為目前應用最廣的三種跨平臺腳本語言。Python是純粹的自由軟件, 源代碼和解釋器CPython遵循 GPL(GNU General Public License)協議[2] 。Python的主要特點有:
1)免費開源、簡單易學
Python是FLOSS(自由/開放源碼軟件)之一[3]。使用者可以自由地這個軟件的拷貝、閱讀它的源代碼、對它做改動、把它的一部分用于新的自由軟件中。FLOSS是基于一個團體分享知識的概念。Python是一種代表簡單主義思想的語言,閱讀一個良好的Python程序就感覺像是在讀英語一樣。它使你能夠專注于解決問題而不是去搞明白語言本身。Python極其容易上手,因為Python有極其簡單的說明文檔 。
2)速度快
Python 的底層是用 C 語言寫的,很多標準庫和第三方庫也都是用 C 寫的,運行速度非常快 。
3)高層語言
Python語言編寫程序的時候無需考慮諸如如何管理你的程序使用的內存一類的底層細節。
4)可移植性
由于它的開源本質,Python已經被移植在許多平臺上(經過改動使它能夠工作在不同平臺上)[4]。這些平臺包括Linux、Windows、FreeBSD、Macintosh、Solaris、OS/2、Amiga、AROS、AS/400、BeOS、OS/390、z/OS、Palm OS、QNX、VMS、Psion、Acom RISC OS、VxWorks、PlayStation、Sharp Zaurus、Windows CE、PocketPC、Symbian以及Google基于linux開發的android平臺。
5)面向對象
Python是一種公共域的面向對象的動態語言[5],Python既支持面向過程的編程也支持面向對象的編程。在“面向過程”的語言中,程序是由過程或僅僅是可重用代碼的函數構建起來的。在“面向對象”的語言中,程序是由數據和功能組合而成的對象構建起來的。
6)可擴展性
如果需要一段關鍵代碼運行得更快或者希望某些算法不公開,可以部分程序用C或C++編寫,然后在Python程序中使用它們。
7)可嵌入性
可以把Python嵌入C/C++程序,從而向程序用戶提供腳本功能。
8)豐富的庫
Python標準庫確實很龐大。它可以幫助處理各種工作,包括正則表達式、文檔生成、單元測試、線程、數據庫、網頁瀏覽器、CGI、FTP、電子郵件、XML、XML-RPC、HTML、WAV文件、密碼系統、GUI(圖形用戶界面)、Tk和其他與系統有關的操作。這被稱作Python的“功能齊全”理念。除了標準庫以外,還有許多其他高質量的庫,如wxPython、Twisted和Python圖像庫等等。
9)規范的代碼
Python采用強制縮進的方式使得代碼具有較好可讀性。而Python語言寫的程序不需要編譯成二進制代碼。
2 系統架構的設計
由于網絡用戶上網行為數據可以從網絡安全設備(如防火墻、網絡認證網關)上直接采集,所采集到的數據中有很多信息是不需保存的,并且生成的日志一般都是一個2萬多條記錄的壓縮文件。在實際的用戶行為管理分析中需要對這些壓縮文件進行解壓、分類、清洗,然后提取有用信息,并對所提取的信息進行壓縮處理,以便以后用于數據挖掘。系統結構設計如圖1:
在日志處理系統結構設計中,日志解壓模塊實現對原始數據自動解壓,并保存在以日期命名的文件夾中日志文件;日志文件夾處理模塊用于處理長時間保存日志文件和日志文件夾,使處理結果生成一個帶有路徑的文件名列表的文本文件。這個文本文件可以使下一步數據分類、清洗模塊快速定位到所要處理文件的位置和名稱。根據大理大學網絡用戶特點設計數據的分類和清洗模塊,實現把中國學生、留學生、教職工、校外人員的網絡行為日志文件進行分離,并把這些日志文件中沒有實際意義的記錄清除,最終把分類文件分別合并到以日期命名的文件中,為以后大數據的科學計算和智能分析提供純凈的數據源。日志文件壓縮模塊實現對分類、清洗過后的日志文件進行壓縮,提高存儲效率。
3 系統的實現
3.1 目錄處理模塊的實現
采用python程序設計語言中的os模塊,實現對目錄路徑和文件名的處理,第一步,將原始數據目錄下的所有文件夾的路徑寫入到一個文本文件中,例如:D:\campus big data\Datadirectory.txt,以便數據處理時循環遍歷所有文件夾,其代碼實現如下:
def CreateRawdatadirectory():
data_file_path="D:\\campus big data\\Raw_data\\"
day_log_path=os.listdir(data_file_path) #日日志文件夾路徑
log_files_list=[] #每天的.log文件所在目錄,如D:\campus big data\data\2016-03-01
fw=open("D:\\campus big data\\Raw_Datadirectory.txt","w")
for item in day_log_path:
fw.write(data_file_path+item+"\\") #Raw_Datadirectory.txt寫入
fw.write("\n")
fw.close()
第二步,生成日志文件夾文件,將每日文件夾下的所有日志文件路徑寫入對應文件夾下的文本文件。例如:D:\campus\bigdata \data \201 6-03-01\file_path.tx文件,在數據處理時可以快速遍歷所有日志文件,其代碼實現如下:
def CreateLogDirectory():
fr=open("D:\\campus big data\\Raw_Datadirectory.txt","r")
fr_s=fr.read()
log_files_list=fr_s.split("\n")
for directory in log_files_list:
fw=open(directory+"file_path.txt","w")
try:
log_filename=[fname for fname in os.listdir(directory) if fname.endswith('.log')]
for fname in log_filename:
fw.write(directory+fname) #file_path.txt文件寫入
fw.write("\n")
except:
pass
fw.close()
fr.close
第三步,創建多級目錄,創建處理后數據存儲的多級目錄。例如:Ch_students目錄、Oversea_students目錄、Teachers目錄,用以保存不同用戶的上網行為日志文件。
3.2 解壓和壓縮模塊
根據目錄處理模塊所得到的路徑文件,調用python提供的zipfile模塊,把原始數據進行解壓,并把清洗過的用戶行為數據進行壓縮,代碼的設計如下:
解壓過程:
def FromZip(file_path_prefix): #
file_directory="D:\\campus big data\\Raw_data\\2016-03-01\\"
zip_filename=[fname for fname in os.listdir(file_directory) if fname.endswith('.zip')]
for item in zip_filename:
zip_path=file_directory+item
zfile = zipfile.ZipFile(zip_path,'r')
filename=zfile.namelist()[0]
data=zfile.read(filename)
flog=open(file_directory+filename,'w+b')
flog.write(data)
flog.close
壓縮過程
def ToZip():
file_directory="D:\\campus big data\\Raw_data\\2016-03-01\\"
log_filename=[fname for fname in os.listdir(file_directory) if fname.endswith('..log')]
for item in log_filename:
log_path=file_directory+item
f = zipfile.ZipFile('archive.zip','w',zipfile.ZIP_DEFLATED)
startdir = "c:\\mydirectory"
for dirpath, dirnames, filenames in os.walk(startdir):
for filename in filenames:
f.write(os.path.join(dirpath,filename))
f.close()
由于程序在運行時是直接調用目錄處理模塊所得的路徑文件,這樣就可以縮短程序運行的時間,提高程序的運行效率。
3.3 數據分類、清洗模塊
在網絡用戶上網行為日志數據中,有許多信息是沒有意義的,我們需要對這些數據進行分類和清洗。原始數據結構如下:
3.3.1 數據的分類
根據學校校園網絡用戶的特點,我們可以把用戶分為教工、國內學生、國外學生。根據上網的區域可以分為辦公區、教職工住宅區、學生宿舍區。利用python語言對文件快速處理的特點對用戶進行分類,并分別存儲在不同的文件中,代碼如下:
fwrite_log=open("data_log.txt",'w') #數據處理后存文放文件
fread_log=open("2016-03-01 00-00-00..txt",'r') #打開日志文件
log_txt=fread_log.read().split('\n') #讀取每一條記錄
for i in range(len(log_txt)): #對每一條記錄進行處理
if log_txt[i].strip('\n')!='':
if(log_txt[i].split('\t')[3])[0]=='X':
record=log_txt[i].split('\t') s_row=record[2]+'\t'+record[4]+'\t'+record[5]+'\t'+record[6]+'\t'+record[7]+'\t'+record[8]+'\t'+'\n'
fwrite_log.write(s_row)
fwrite_log.close()
fread_log.close()
3.3.2 數據清洗
根據網絡用戶上網行為的特點,會出現空行、重復記尋。數據清洗的重要工作就是要把這些干擾信息去除,保留有用信息,為以后的數據挖掘提供純凈的數據。在數據清洗過程中,應用python中的set()和strip()功能把重復記錄和空行清除。經過清洗的數據記錄數和文件大小都比原來小,表2中可以清晰的反映數據清洗前后的對比。
4 結束語
從程序的運行結果可以得出,用python編寫的用戶上網行為日志處理程序設計簡單,運行效率高,所提取的用用戶行為數據可以進一步分析,為校園網絡安全提供準確的用戶定位,為校園網絡的帶寬管理和維護提供準確的數據作為參考,并提高網絡的服務質量。
參考文獻:
[1] 張良均, 樊哲, 趙云龍. Hadoop大數據分析與挖掘實戰[M]. 北京: 機械工業出版社, 2016.
[2] 肖建, 林海波. Python基礎教程[M]. 北京: 清華大學出版社, 2003: 1-2.
[3] 北京中科紅旗軟件技術有限公司. 紅旗Linux系統應用編程[M]. 北京: 石油工業出版社, 2012: 192.
關鍵詞:數據挖掘;web;網絡訪問
中圖分類號:TP393.092文獻標識碼:A文章編號:1007-9599 (2010) 03-0047-02
Research on Data Mining to Improve Web User Network Access Speed
Sun Wenqian
(Hechi College Campus Network Center Fengshan,FengShan546300,China)
Abtract:The implication of Data Mining in improving the network access speed, is that the law of site's being accessed have been achieved by Data Mining in web log,which aimed to change the web site's organizational structure and services by extracting interesting patterns for log user to access to the site.
Keywords:Data Mining;Web;Acess to Network
一、緒言
隨著Internet技術的發展和普及,網絡在創造信息高速交換的同時,數據存儲量也在不斷膨脹,加上每個動態頁面和應用系統都在頻繁訪問數據庫,使得互聯網絡中web用戶對數據的訪問速度不斷下降。解決這個問題的途徑之一就是Web日志挖掘,即根據Web服務器記錄的日志對用戶訪問網站的情況進行分析,使用數據挖掘技術抽取日志中感興趣的模式,得到站點的被訪問規律,從而改進網站的組織結構和服務,掘出有用的關聯規則、序列模式、聚類分析等知識類型。Web訪問挖掘通常可以分為數據預處理、挖掘算法的應用、模式分析及知識發現這3個階段,本文主要討論數據預處理、挖掘算法的應用兩個階段。
二、數據預處理
數據預處理的數據源是服務器的日志文件,因此首先要將日志文件轉換成數據庫文件,以獲得可靠的精確數據。技術上,一般將預處理階段劃分為數據清洗、頁面過濾、用戶識別、會話構造、路徑識別這5個步驟。其模型如圖1所示。
隨著Web技術的進一步發展,原有的模型已不能達到很好的預處理效果,改進的Web訪問挖掘數據預處理模型通常在常規數據清洗后增加了初次引擎過濾,并在會話別之后進行了二次引擎過濾,其作用是為了過濾當今廣泛使用的搜索引擎對Web的訪問記錄。經過會話識別的服務器日志文件已經被組織成一個會話集合,通過對該會話集合的再次分析,可以將其中的非正式用戶會話過濾,其中主要是針對搜索引擎的過濾,該過程稱為“二次引擎過濾”。過濾方法可以采用當前比較成熟的分類、聚類等數據挖掘算法。
三、挖掘算法的應用
通過分析日志文件,我們可以尋找到那些經常被用戶訪問的頁面及他們之間的關聯規則(即頻繁訪問頁組)。網站資源可以是網頁、數據、圖片、聲音和文檔。設x1、x2、……xm;Y1、Y2、……Ym均為網站資源,X=>Y(sup,conf)表示資源集的關聯規則,其中X={X1、X2……Xm},Y={Y1、Y2、……Ym},X∩Y=空,這條規則的含義是如果資源集X被訪問,那么資源集Y也會被訪問。規則的支持度為sup,置信度為conf,關聯規則挖掘算法的目的就是要推導出所有達到一定支持度和置信度的規則。
在這里,假定超文本系統僅僅包含有一些基本的頁面。除此外我們還假設:
1.指向一個頁面的連接是將這個頁面作為一個整體來對待的,而不是指向頁面內容的一部分;
2.在超文本系統中不存在環路;
3.在任何源節點和目標節點間最多只有一條鏈路。基于以上的假設,我們可以為超文本系統建立一個有向網絡拓撲圖,如圖2所示:
在這里,有向圖G=(N,E),其中N是節點的集合,E是邊的集合。一個節點A(A∈N)和一個頁面相對應,一條邊是一個元組(A,B)∈E,和頁面間的一個連接相對應;對于給定的連接(A,B)稱A是源節點,B是目的節點。在這里并不假定圖是連接的。如果兩個頁面在網絡拓撲中相距較遠,則表明它們之間的關聯性較低,如果我們從日志信息中挖掘出它們之間有較高的訪問可信度的規則,則這樣的規則是用戶感興趣的。如圖2的頁面C和E在拓撲結構中,顯示關聯度較低。如果,在Web日志中發現了C=>E這樣的關聯規則,則興趣度是較高的。通過這樣興趣度高的關聯規則,有利于網站結構的調整。
四、結束語
隨著Internet的發展,網絡資源更加豐富, 數據挖掘在提高web用戶網絡訪問速度上的研究已經成為一項重要的研究課題。Web日志數據預處理是Web日志挖掘的一個重要前提和基礎,高效正確的預處理方法直接影響著挖掘的成敗;而成功應用挖掘算法則大大提高規則的利用率,可以很好的用于網絡拓撲結構的改善。
參考文獻:
[1]易芝,汪林林,王練.基于關聯規則相關性分析的Web個性化推薦研究[J].重慶郵電大學學報:自然科學版,2007,19(2)
[2]紀良浩,王國胤,楊勇.基于協作過濾的Web日志數據預處理研究[J].重慶郵電學院學報:自然科學版,2006,18(5)
[3]朱秋云.一種關聯規則挖掘篩選算法設計[J].重慶工學院學報:自然科學版,2008,22(6)
作者簡介
孫文乾(1966.11-),男,廣西鳳山人,研究方向:計算機網絡技術
3 期 更 正
1、本刊2010年1月第96頁文章《關于藥用植物的藥用成份分析》的作者:孫世琦應為:孫士琦
[關鍵詞]電子商務數據挖掘Web日志挖掘
一、引言
隨著計算機技術、通信技術和網絡技術的飛速發展,電子商務的發展也有了越來越好的技術平臺,許多公司都建立了自己的網站,這是公司的門戶和電子商務進行的所在。Web數據挖掘是當前最前沿的研究領域,是把Internet和數據挖掘結合起來的一種新興技術。Web數據挖掘是知識發現的特定步驟,也是最核心的部分。Web日志挖掘是Web挖掘的重要內容,其技術和方法在電子商務中有著巨大的應用空間和應用價值。如發現有價值的信息、尋找潛在客戶和提供個性化服務等。
二、Web挖掘及Web日志挖掘
Web挖掘是將數據挖掘的思想和方法應用到Web頁面內容、頁面之間的結構、用戶訪問信息等各種Web數據中,從中抽取隱含的、以前未知的、具有潛在應用價值的信息。根據挖掘的對象不同,Web挖掘可分為Web內容挖掘、Web結構挖掘和Web日志挖掘。
1.Web內容挖掘
Web內容挖掘主要從Web文檔的內容中抽取出有用的知識。由于Web文檔的絕大部分內容是以文本的形式存在,所以Web內容挖掘主要針對的是Web文檔的文本部分,文本挖掘主要包括對Web文檔文本的總結、分類、聚類、關聯分析等。除了文本挖掘以外,Web內容挖掘還包括Web上的聲音、圖形、圖像信息的挖掘、數據庫中的數據挖掘和信息獲取等。
2.Web結構挖掘
Web結構挖掘主要通過Web頁的組織結構和超鏈接關系以及Web文檔自身的結構信息(如Title,Heading,Anchor標記等)推導出Web內容以外的知識,可分為超鏈挖掘、內部結構挖掘和URL挖掘。
3.Web日志挖掘
Web日志挖掘即Web使用記錄挖掘,是從用戶的訪問記錄中抽取具有意義的模式。其數據源有服務器的日志、用戶注冊數據、跟蹤文件的數據記錄、用戶訪問期間的事務、用戶查詢、書簽數據和鼠標移動點擊的信息。Web日志記錄挖掘應用的技術主要有路徑分析、關聯規則分析、序列模式分析、聚類分析、統計分析等。Web使用記錄挖掘可以發現潛在的用戶、改進電子商務網站的建設、增加個性化服務等。
三、Web日志挖掘的步驟
Web日志挖掘步驟主要分為源數據收集、數據預處理、模式發現、模式分析4個階段。
1.源數據收集
源數據收集主要是Web日志文件的收集。對于一個電子商務網站來說,經過一段時間后,用戶會在網站上積累大量有用的信息(如訪問日志、注冊信息、需求信息、定單信息、交流信息等),采用Web日志挖掘技術就可以充分利用這些有用信息,幫助電子商務網站的建設和發展。
Web日志文件主要包括以下3種類型:服務器日志文件、錯誤日志文件和Cookies。
2.數據預處理
Web日志挖掘首先要對日志中的原始數據進行預處理,因為從用戶的訪問日志中得到的原始日志記錄并不適于挖掘,必須進行適當的處理。因此,需要通過日志清理,去除無用的記錄。預處理過程是保證Web日志挖掘質量的關鍵步驟,下面我們來闡述數據預處理的過程。
(1)數據凈化。指刪除Web服務器日志中與挖掘算法無關的數據。大多數情況,只有日志中HTML文件與用戶會話相關,所以通過檢查URL的后綴刪除認為不相關的數據。
(2)識別用戶。由于本地緩存、服務器和防火墻的存在,使得識別用戶的任務變得很復雜,可以使用一些啟發式規則幫助識別用戶。
(3)識別用戶會話。用戶會話是指用戶對服務器的一次有效訪問,通過其連續請求的頁面,我們可以獲得他在網站中的訪問行為和瀏覽興趣。
(4)識別片段。在識別用戶會話過程中的另一個問題是確定訪問日志中是否有重要的請求沒有被記錄。如果當前請求頁與用戶上一次請求頁之間沒有超文本鏈接,那么用戶很可能使用了瀏覽器上的“BACK”按鈕調用緩存在本機中的頁面。檢查引用日志確定當前請求來自哪一頁,如果在用戶的歷史訪問記錄上有多個頁面都包含與當前請求頁的鏈接,則將請求時間最接近當前請求頁的頁面作為當前請求的來源。
3.模式發現
模式發現是運用各種算法和技術對預處理后的數據進行挖掘,生成模式。這些技術包括人工智能、數據挖掘、統計理論、信息論等多領域的成熟技術。可以運用數據挖掘中的常用技術如路徑分析,關聯規則、序列模式以及分類聚類等。
(1)路徑分析。它可以被用于判定在一個站點中最頻繁訪問的路徑,還有一些其它的有關路徑的信息通過路徑分析可以得出。利用這些信息就可以改進站點的設計結構。
(2)關聯規則。使用關聯規則發現方法,可以從Web的訪問事務中找到相關性。利用這些相關性,可以更好的組織站點的Web空間。
(3)序列模式。在時間戳有序的事務集中,序列模式的發現就是指那些如“一些項跟隨另一個項”這樣的內部事務模式。發現序列模式,能夠便于預測讀者的訪問模式,開展有針對性的服務。
(4)分類和聚類。發現分類規則可以給出識別一個特殊群體的公共屬性的描述,這種描述可以用于分類的讀者。聚類分析可以從Web訪問信息數據中聚類出具有相似特性的讀者,在Web事務日志中,聚類讀者信息或數據項能夠便于開發和設計未來的服務模式和服務群體。
4.模式分析
該階段實現對用戶訪問模式的分析,基本作用是排除模式發現中沒有價值的規則模式,從而將有價值的模式提取出來。
四、Web日志挖掘在電子商務網站中的應用
1.電子商務網站中Web日志挖掘內容
(1)網站的概要統計。網站的概要統計包括分析覆蓋的時間、總的頁面數、訪問數、會話數、惟一訪問者、以及平均訪問、最高訪問、上周訪問、昨日訪問等結果集。
(2)內容訪問分析。內容訪問分析包括最多及最少被訪問的頁面、最多訪問路徑、最多訪問的新聞、最高訪問的時間等。
(3)客戶信息分析。客戶信息分析包括訪問者的來源省份統計、訪問者使用的瀏覽器及操作系統分析、訪問來自的頁面或者網站、來自的IP地址以及訪問者使用的搜索引擎。
(4)訪問者活動周期行為分析。訪問者活動周期行為分析包括一周7天的訪問行為、一天24小時的訪問行為、每周的最多的訪問日、每天的最多訪問時段等。
(5)主要訪問錯誤分析。主要訪問錯誤分析包括服務端錯誤、頁面找不到錯誤等。
(6)網站欄目分析。網站欄目分析包括定制的頻道和欄目設定,統計出各個欄目的訪問情況,并進行分析。
(7)商務網站擴展分析。商務網站擴展分析是專門針對專題或多媒體文件或下載等內容的訪問分析。
2.Web日志挖掘工具
已經有部分公司開發出了商用的網站用戶訪問分析系統,如WebTrends公司的CommerceTrends3.0,它能夠讓電子商務網站更好地理解其網站訪問者的行為,幫助網站采取一些行動來將這些訪問者變為顧客。CommerceTrends主要由3部分組成:ReportGenerationServer、CampainAnalyzer和WebhouseBuilder。
還有Accrue公司的AccrueInsight,它是一個綜合性的Web分析工具,它能夠對網站的運行狀況有個深入、細致和準確的分析,通過分析顧客的行為模式,幫助網站采取措施來提高顧客對于網站的忠誠度,從而建立長期的顧客關系。
關鍵詞:Web日志挖掘;信息無障礙;網站設計
中圖分類號:TP393文獻標識碼:A文章編號:1009-3044(2011)14-3261-02
The Research of the Accessibility Website Design Based on Web Log Mining
TANG Heng-yao, ZHAN Xiao-yan
(Mathematics and Computer Science College of Huanggang Normal University, Huanggang 438000, China)
Abstract: On the problems existing in the realization of current accessibility Website, we design a Web designing architecture, using the Web log mining technique to extract user interests and access priority sequence and adopting the dynamic Web page information to fill the Web page commonly used structure, realize the intelligent, personalized accessibility.
Key words: Web log mining; information accessibility; Website design
隨著信息技術和網絡技術的不斷發展,互聯網給現代人們獲取信息帶來極大的便利,成為人們工作生活中非常重要的組成部分。信息無障礙即萬維網對任何人士(包括殘障人士)都是可訪問、可用的,殘障人士能感覺、理解和操縱Web,與Web 互動。如何借助先進的技術,消除數字鴻溝,為殘疾人提供有效的輔助手段,使他們能和健全人一樣無障礙地獲取網上信息,得到世界各國政府和組織越來越多的重視。
1 信息無障礙網站存在的問題
很多部分實現了信息無障礙的網站,用戶每次訪問時,網站語音都得從頭到尾的播報網站內容,對于該用戶曾經訪問過本網站中部分頁面內容,系統不能自動過濾掉這些已經閱讀的內容,或者跳過這些已閱讀信息,而是依然按照布局順序重復播報。這對于閱讀障礙的用戶來說非常浪費時間和精力。避免重復瀏覽或者播報網站信息,將用戶曾經閱讀過的內容過濾掉,將沒有閱讀過的最新的感興趣的網頁內容優先播報給閱讀障礙用戶,提供智能化、個性化信息服務,是信息無障礙網站設計應該重視的問題。
2 Web日志挖掘
Web日志文件是在Web服務器上每隔一定的時間產生的記錄文件,其內容包括訪問用戶的IP地址,訪問時間、訪問的頁面、頁面的大小、瀏覽器類型、響應狀態等等。Web日志挖掘是對用戶訪問Web時服務器方留下的訪問記錄進行挖掘,得到用戶的訪問模式和訪問興趣。通過對Web站點的日志記錄進行預處理,將日志數據組織成傳統的數據挖掘方法能夠處理的事務數據形式,然后利用傳統的數據挖掘方法進行處理。
Web日志預處理過程:
1) 數據收集:從服務器端數據、客戶端數據、服務器端進行。
2) 數據凈化:刪除Web日志文件中不是由用戶請求,而是由瀏覽器自動“請求”產生的訪問記錄。具體包括圖片和音頻文件、樣式文件和腳本文件、不是GET的HTTP方法、彈出式廣告的記錄等。
3) 用戶識別:可以通過IP地址和、嵌入SessionID、cookie、軟件等方法實現用戶的識別,但由于本地緩存、公司防火墻和服務器的存在,要識別出每一個用戶變得很復雜。可以采用一些啟發式規則去識別不同用戶,將IP地址,類型以及引用頁面結合起來識別一個用戶,也可以通過注冊用戶,依賴用戶的合作是最好的解決辦法。
4) 會話識別:用戶在規定時間內對服務器的一次有效訪問,通過其連續請求的頁面,可以獲得其在網站中的訪問行為和瀏覽興趣,有4種識別會話的模型:頁面類型模型(page type model),參引長度模型(reference length model),最大前向參引模型(maximal forword reference model)和時間窗口模型(time window model)。最常采用的是時間窗口模型,以用戶訪問時間作為劃分會話的分界,一般間隔時間取30min。
5) 路徑補充:用戶有時瀏覽的頁面,是從本地緩存和服務器中調用的,不會向Web服務器發送請求,也就不會記錄日志,而這些請求可能對后續挖掘的實施有重要作用,缺少這些頁面記錄可能會使挖掘結果不是很準確。為了能更精確的挖掘用戶的行為模式,有必要把這些缺失的路徑補充上去即路徑補充。如果當前請求的頁與用戶上一次請求的頁之間沒有超文本鏈接,那么用戶很可能使用了瀏覽器上的“BACK"按鈕調用緩存在本機中的頁面。如果用戶的歷史訪問記錄有多個頁面都包含與當前請求頁的鏈接,則將請求時間最接近的Web頁的頁面作為當前請求的來源。
3 基于Web日志挖掘的網站設計
3.1 網站設計架構
網站為每位存在訪問障礙的用戶建立網站訪問記錄數據庫,用戶訪問網站頁面,產生Web日志文件,通過對Web站點日志文件進行數據凈化、用戶識別、會話識別,將有用數據存入事務數據庫,對該用戶訪問過的頁面進行相應標記,再對事務數據庫進行傳統的數據挖掘,分析出該用戶比較感興趣的信息類型,為該用戶對網站所有類型信息構造優先顯示頁面類型序列表和對每類信息未訪問頁面、已訪問頁面分別構造優先序列表,當該用戶再次訪問網站時利用離線分析所得的優先序列表和網站文件映射數據庫將網頁鏈接按照用戶興趣高低動態填充到網站導航框架,這樣用戶最感興趣類型的網頁鏈接總是弄夠最先看到、聽到,從而達到優先訪問的目的。
網站設計框架如圖1。
3.2 網站導航
網站導航是根據信息無障礙網站結構布局設計標準所設計的網站通用布局框架,除了包括信息無障礙要求的導航磚,通用切換等功能,還將頁面設計成由幾個通用的布局框架模塊組成,每個框架模塊將顯示網站上某一種類型的網頁信息鏈接,具體網頁鏈接內容則根據序列表先后順序動態填充。網站所包含的信息類型可以有很多,但在網站導航中只列出用戶最感興趣的幾種類型的網頁鏈接,隨著用戶興趣的改變,其他類型的網頁鏈接將動態的填充到相應級別的框架模塊中。
3.3 興趣提取
根據用戶瀏覽的歷史訪問記錄(內容信息和行為信息)、訪問時間和訪問頻率等來分析計算用戶興趣度,用戶的興趣一般集中于某一個主題或者多個主題,系統在通過聚類進行分析將用戶瀏覽的歷史頁面集自動地分成n個聚簇(n是聚類中聚類中心的數目),每一聚簇的頁面集體現了用戶的某類興趣,構造形成用戶的興趣類。再利用用戶的隱式信息學習提取用戶興趣集,建立樹狀的用戶興趣模型。
3.4 序列模式
序列模式挖掘是對關聯規則挖掘的進一步推廣,它挖掘出序列數據庫中項集之間的時序關聯規則。關聯規則強調的是兩個項之間的關聯,序列模式則加強調兩者之間的先后次序。這里我們將挖掘出兩種序列表:類型序列表和頁面序列表。類型序列表是通過對歷史訪問記錄進行挖掘統計出來的網站每種類型信息訪問優先等級,是一組有序項集對應表;頁面序列表則是以類型挖掘權值和更新時間2個指標得出的頁面訪問有序集對應表。可以采用基于Apfiori算法的改進算法進行挖掘得到上述兩種序列表。
3.5 序列-頁面映射
根據挖掘得到的序列模式對網站的靜態頁面文件進行一一映射,按照興趣高低和文件序列先后動態的填充如網站導航模塊框架中。
4 結束語
該文所提出對Web日志文件挖掘提取用戶的興趣類和訪問類型和頁面優先序列,重構站點頁面之間的鏈接關系,動態顯示網頁信息的設計框架,以適應有障礙用戶的訪問興趣習慣為主要目標,在一定程度上可以避免反復無用的頁面瀏覽和語音播報所造成的對存在訪問障礙用戶產生的困擾和時間精力的浪費,提高了訪問效率,為消除信息鴻溝,真正做到信息人人共享發揮積極的作用。
參考文獻:
[1] 王甜.自助建站系統助陣信息無障礙網站[J].互聯網天地,2008(4).
[2] 劉曉政.視障網絡用戶的無障礙網頁瀏覽現狀及前景[J].電腦知識與技術,2008,(35).