前言:本站為你精心整理了電子商務應用范文,希望能為你的創作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。
[摘要]近年來,隨著Internet/Web技術的快速普及和迅猛發展,使各種信息可以以非常低的成本在網絡上獲得,由于www在全球互連互通,可以從中取得的數據量難以計算,而且www的發展趨勢繼續看好,特別是電子商務的蓬勃發展為網絡應用提供了強大支持,如何在www這個全球最大的數據集合中發現有用信息正在成為數據挖掘研究的熱點。
[關鍵詞]web數據挖掘電子商務
一、引言
隨著以數據庫、數據倉庫等數據倉儲技術為基礎的信息系統在各行各業的應用,使海量數據不斷產生。隨之而來的問題是如此多的數據讓人難以消化,無法從表面上看出他們所蘊涵的有用信息。如何從大量的數據中找到真正有用的信息成為人們關注的焦點,數據挖掘技術也正是伴隨著這種需求從研究走向應用。
近年來,隨著Internet/Web技術的快速普及和迅猛發展,使各種信息可以以非常低的成本在網絡上獲得,由于Internet/WWW在全球互連互通,可以從中取得的數據量難以計算,而且Internet/WWW的發展趨勢繼續看好,特別是電子商務的蓬勃發展為網絡應用提供了強大支持,如何在WWW這個全球最大的數據集合中發現有用信息無疑將成為數據挖掘研究的熱點。
二、Web挖掘概述
數據挖掘就是從數據庫中抽取隱含的、以前未知的、具有潛在應用價值的信息的過程。Web挖掘是將數據挖掘的思想和方法應用到Web頁面內容、頁面之間的結構、用戶訪問信息等各種Web數據中,從中抽取隱含的、以前未知的、具有潛在應用價值的信息。Web挖掘對在浩瀚的網絡中發現有價值的知識、改進網站設計、提供更好的網上服務有重要的作用。
Web挖掘是針對包括Web頁面內容,頁面之間的結構,用戶訪問信息等在內的各種Web數據源。在一定基礎上應用數據挖掘的方法以發現有用的隱含的知識的過程。Web挖掘與傳統的數據挖掘相比有其自身的特點。Web本身是半結構化或無結構的數據,缺乏機器可理解的語義,Web挖掘的對象是大量,異質,分布的Web文檔,對Web服務器上的日志、用戶信息等數據所開展的挖掘工作也屬于Web數據挖掘的范疇。Web信息的多樣性決定了挖掘任務的多樣性。按照Web處理對象的不同,一般將Web挖掘分為三類:Web內容挖掘,Web結構挖掘和Web使用記錄挖掘。
1.Web內容挖掘
Web內容挖掘是指對Web頁面及后臺交易數據庫進行挖掘,從Web文檔內容及其描述中的內容信息中獲取有價值的知識的過程。它是數據挖掘技術在網絡信息處理上的應用,主要方法有IR(informationretrieve)和數據庫方法。它又可分為Web文本挖掘和Web多媒體挖掘兩種數據挖掘方式。Web內容挖掘多為這種方式的挖掘,它和平常的平面文本挖掘的功能及方法比較類似。Web文檔多為HTML、XML等自然語言,因此可利用Web文檔中的標記,利用這些信息可以提高Web文本挖掘的性能。在對Web文檔進行分類分析中,可以基于一組預先分好的文檔為每一類文檔賦予一個類標簽。由于超鏈接里包括了有關頁面內容的高質量信息,因此可以利用這些信息對文檔進行分類,并且這種分類比基于關鍵字的分類更加準確。隨著網絡帶寬的擴大,多媒體信息在網上迅速增加,這對Web內容挖掘提出了新的要求。Web多媒體挖掘的挖掘主要是指基于音頻的挖掘、基于圖片的靜態圖像的挖掘和基于視頻的動態圖像的挖掘。
2.Web結構挖掘
Web結構挖掘是對Web的組織結構和鏈接關系進行挖掘,從人為的鏈接關系中獲得有價值的知識。由于文檔之間互連,WWW能提供除文檔內容以外的有用信息。Web結構挖掘通過分析一個網頁鏈接和被鏈接的網頁數量和對象,建立Web自身的鏈接結構模式。這種模式可以用于網頁分類,并由此獲得有關不同頁面間的相似度和關聯度的信息。Web頁面除了包含頁面以外還包括一個頁面指向另一個頁面的超鏈接。超鏈接里包含大量人類潛在的語義,它可用于分析出權威性語義。當一個Web頁面的作者建立指向另一個頁面的指針時,可以看作是作者對另一個頁面的注解,即對另一個頁面的認可。把一個頁面的來自不同作者的注解收集起來,可以用來反應頁面的重要性。這樣,Web結構挖掘有助于用戶找到相關主題的權威站點。
3.Web使用記錄挖掘
Web使用記錄挖掘是對用戶訪問Web時在服務器上留下的訪問記錄進行挖掘。它通過挖掘Web日志文件及其相關數據來發現用戶訪問Web頁面的模式,主要技術有Cookies和遠程Agent技術。Web使用記錄挖掘的對象不是網上的原始數據而是從用戶和網絡交互過程中抽取出來的二手數據。服務器上的日志文件包括所請求的URL、發送請求的IP和時間,這些日志提供了有關Web動態的豐富信息。因此提取用戶留下的這些日志文件進行Web挖掘,提取有關用戶的知識,對用戶的訪問行為、頻度、內容進行分析,得到關于用戶的行為和方式的模式,從而改進站點的結構,或為用戶提供個性化服務。對用戶使用記錄進行挖掘的方法主要有兩種。一種方法是通過對日志文件進行分析,包含兩種方式,一是訪問前先進行預處理,即將日志數據映射為關系表采用相應的數據挖掘技術,如關聯規則或聚類規則來訪問日志文件。二是對日志文件直接進行訪問以獲取用戶的導航信息。二是通過對用戶的點擊事件的收集和分析來發現用戶的導航行為。
三、Web挖掘的主要技術
Web數據挖掘中常用的技術有路徑分析技術、關聯規則、序列模式、分類聚類技術等。
1.關聯規則挖掘技術
該技術主要用于從學習者訪問序列數據庫的序列項中挖掘出相關的規則。在Web數據挖掘中,關聯規則挖掘就是要挖掘出學習者在一個訪問期間(Session)從服務器問的頁面/文件之間的聯系,這些頁面之間可能并不存在直接的參引(Reference)關系。在網絡日志數據的預處理過程中,將學習者訪問的頁面路徑構成了學習者會話事務集,可以通過關聯規則挖掘得到大量的學習者訪問請求的URL之間的聯系,并將挖掘出的規則按照不同的支持度和置信度進行取舍,從而保留一些有用的規則進行應用。
2.序列模式挖掘技術
序列模式數據挖掘就是要挖掘出交易集之間的有時間序列的模式。在網站服務器日志里,學習者的訪問是以一段時間為單位記載的。經過數據凈化和事件交易確認以后是一個間斷的時間序列,這些序列反映了學習者一定的行為。在網絡日志文件的預處理過程中,抽取了學習者對于每個URL瀏覽所耗用的時間,這種元數據從側面描繪出每個學習者對于頁面上承載的知識點的理解程度和思考難度,引用時間長的證明此頁面承載的知識點比較難于理解。通過分析可以得出學習者對特定知識點的掌握程度。但由于網路線路的原因,致使學習者在提出URL請求后,很長時間才將相應的網頁打開,所以這種由日志中記錄的瀏覽時間所分析出的各種模式規則并不一定真實反映學習者的學習過程,所以我們利用序列模式挖掘方式預測出學習者后續要訪問的頁面集,然后將此頁面集中的URL預先下載到本地計算機的緩存中去,從而降低了頁面的打開時間,也就使得瀏覽時間的準確性和有效性得到了很大的提高。這種Web頁面的預取技術是利用序列模式挖掘方法來實現的。
3.聚類分類技術
聚類技術可以將具有相同特征的數據項聚成一類。聚類分析模式就是將數據劃分到不同的組或者簇中,組之間的差別盡可能的大,組內的差別盡可能的小,與一般認為通過學習者的固定信息進行的分類分析不同,聚類前并不知道將要劃分成幾個組和什么樣的組,完全依靠服務器智能化的計算得出,因此聚類分析也可以稱為無監督分類。通過聚類得出不同的類后,一旦某學習者的特征模式符合某個類后,推薦引擎自動將此學習者尚未訪問的頁面或者尚未進行的測試與練習推薦給學習者。這樣就可以智能化地將處在不同學習階段的學習者得到此類應該獲得的學習和測試進程。
4.路徑分析技術
用路徑分析技術進行Web使用模式的數據挖掘時,最常用的是圖。因為一個圖代表了定義在網站上的頁面之間的聯系。圖最直接的來源是網站結構圖,網站上的頁面定義成節點,頁面之間的超鏈接定義成圖中的邊。其他的各式各樣的圖也都是建立在頁面和頁面之間聯系或者是一定數量的學習者瀏覽頁面順序基礎之上的。那么,基于Web使用模式的數據挖掘,就是從圖中確定最頻繁的路徑訪問模式或大的參引訪問序列。
四、Web挖掘在電子商務中的應用
1.Web挖掘數據的來源
在Web挖掘中,一個關鍵性步驟是為Web挖掘提供合適的數據即挖掘對象。同樣,把Web挖掘技術應用到電子商務中,也需要選擇合適的目標數據集合。電子商務網站每天都可能有上百萬次的在線交易,生成大量的記錄文件和登記表。這些數據具體分為以下幾種:
(1)服務器日志數據
Web服務器日志記錄了用戶訪問電子商務站點的瀏覽行為,是使用Web挖掘的主要數據來源。日志文件格式中最常用的公用日志格式(CommonLogFormat)提供了關于訪問者物理訪問站點的信息。
(2)Cookie日志數據
Cookie日志是服務器為了自動跟蹤電子商務網站訪問者而為單個瀏覽器生成的標志。用于自動標記和跟蹤站點的訪問者,并由客戶端持有。Cookie通常存儲的是類似于購物手推車狀態信息或者客戶最近連接電子商務網站所訪問的網頁等信息。在電子商務網站,存儲在Cookie日志的數據主要是交易信息。
(3)客戶信息
在電子商務的交易過程中,須經過銀行的信用授權才能進行交易。在這一過程中,大量有關客戶的個人資料等信息會傳到電子商務網站。把這些數據經過清洗,然后存入網站的數據倉庫中作為長期趨勢的分析數據,供數據挖掘之用。所需的數據類型取決于在線購物時的商業類型和所使用的數據本身。
(4)其他數據源
電子商務是基于Internet進行各種交易的,在其上面有大量的異質數據源,里面隱含了大量的有價值的信息有待挖掘??梢岳弥悄蹵gent來進行抽取而獲得有用的信息,有助于電子商務活動的開展。
2.電子商務中Web挖掘的過程
在電子商務環境下,主要的挖掘對象是服務器日志。其主要步驟如下。
(1)數據預處理
由于本地緩存、服務器、防火墻的存在,使得Web日志中的數據并不精確,直接進行挖掘有可能出現錯誤結果。因此首先對日志數據進行預處理,它包括數據凈化、用戶會話和事務識別等。數據清洗主要是刪除與挖掘算法無關的記錄、判斷是否有重要的訪問沒有被記錄;用戶會話是一個用戶在一定時間內請求的所有Web頁面;事務識別主要是將頁面訪問序列劃分為代表Web事務或用戶會話的邏輯單元。
(2)模式發現
模式發現階段是采用統計法、機器學習法等成熟技術,從Web使用記錄中挖掘知識。與電子商務有關的模式發現的方法有統計分析、聚類規則和依賴性建模。統計分析是抽取有關電子商務網站訪問者的最常用的方法??梢岳锰卣鬟x擇方法來分析網頁,就能分析出網頁的某個特征的點擊流次數,根據獲得的結果調整網頁的內容和鏈接結構。聚類規則是從一組數據項中聚集出相似特征的一個聚類。在電子商務中,大致可分為兩類聚類:用戶聚類和網頁聚類。利用聚類的規則可以分析顧客的信息便以開展電子商務活動。依賴性建模的目標是開發出一種能表達Web域中各變量顯著依賴性的模型。這種模型是根據已存在的Web數據,然后抽象出這些數據內在關系的模型。模型的建立對增加網上產品的銷量和改進用戶導航的便利性都有很大的作用。除此以外,還有關聯規則、分類、序列模式等其他的模式發現方法在電子商務的Web挖掘中有較大應用。
(3)模式分析
模式分析主要是采用合適的技術和工具,進行模式的分析來輔助分析人員的理解。最常見的模式分析方法是采用SQL查詢語句進行分析。另一種分析方法是先將數據導入到多維數據立方體中,再利用OLAP工具進行分析并提供可視化的結果輸出。設計出滿足于不同客戶群體需要的個性化網站,進而增加其競爭力是電子商務網站生存和發展的關鍵因素。
把Web挖掘的思想和方法應用到電子商務中去,通過對用戶訪問行為、內容和頻度的分析,就可以得到關于群體用戶訪問行為的信息。利用這些挖掘到的有價值的信息,電子商務網站可以有針對性的開展商務活動。因此,Web挖掘在電子商務領域有很大的應用前景。