最近中文字幕2018免费版2019,久久国产劲暴∨内射新川,久久久午夜精品福利内容,日韩视频 中文字幕 视频一区

首頁 > 文章中心 > 數據分析分析技術

數據分析分析技術

前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇數據分析分析技術范文,相信會為您的寫作帶來幫助,發現更多的寫作思路和靈感。

數據分析分析技術

數據分析分析技術范文第1篇

關鍵詞:告警數據 Hadoop Spark

1 引言

隨著電信網絡的不斷演進,全省數據網、交換網、接入網設備單月產生告警原始日志近億條。以上告警通過網元網管、專業綜合網管、智能網管系統[1]三層收斂,監控人員每月需處理影響業務或網絡質量的告警事件為20萬條,但一些對網絡可能造成隱患的告警信息被過濾掉。如何從海量告警數據中獲取與網絡性能指標、運維效率相關的有價值的數據,對于傳統的關系型數據庫架構而言,似乎是一個不可能完成的任務。

在一般告警量情況下,ORACLE數據處理能力基本可以滿足分析需求,但當告警分析量上升到億級,如果采用傳統的數據存儲和計算方式,一方面數據量過大,表的管理、維護開銷過大,要做到每個字段建索引,存儲浪費巨大;另一方面計算分析過程耗時過長,無法滿足實時和準實時分析需求。因此必須采用新的技術架構來分析處理海量告警信息,支撐主動維護工作顯得尤為必要,為此我們引入了大數據技術。

2 分析目標

(1)數據源:電信運營商網絡設備告警日志數據,每天50 G。

(2)數據分析目標:完成高頻翻轉類(瞬斷)告警分析;完成自定義網元、自定義告警等可定制告警分析;完成被過濾掉的告警分析、TOPN告警分析;核心設備和重要業務監控。

(3)分析平臺硬件配置:云計算平臺分配8臺虛擬機,每臺虛機配置CPU16核;內存32 G;硬盤2 T。

3 制定方案

進入大數據時代,行業內涌現了大量的數據挖掘技術,數據處理和分析更高效、更有價值。Google、Facebook等公司提供可行的思路是通過類似Hadoop[2]的分布式計算、MapReduce[3]、Spark[4]算法等構造而成的新型架構,挖掘有價值信息。

Hadoop是Apache基金會用JAVA語言開發的分布式框架,通過利用計算機集群對大規模數據進行分布式計算分析。Hadoop框架最重要的兩個核心是HDFS和MapReduce,HDFS用于分布式存儲,MapReduce則實現分布式任務計算。

一個HDFS集群包含元數據節點(NameNode)、若干數據節點(DataNode)和客戶端(Client)。NameNode管理HDFS的文件系統,DataNode存儲數據塊文件。HDFS將一個文件劃分成若干個數據塊,這些數據塊存儲DataNode節點上。

MapReduce是Google公司提出的針對大數據的編程模型。核心思想是將計算過程分解成Map(映射)和Reduce(歸約)兩個過程,也就是將一個大的計算任務拆分為多個小任務,MapReduce框架化繁為簡,輕松地解決了數據分布式存儲的計算問題,讓不熟悉并行編程的程序員也能輕松寫出分布式計算程序。MapReduce最大的不足則在于Map和Reduce都是以進程為單位調度、運行、結束的,磁盤I/O開銷大、效率低,無法滿足實時計算需求。

Spark是由加州伯克利大學AMP實驗室開發的類Hadoop MapReduce的分布式并行計算框架,主要特點是彈性分布式數據集RDD[5],中間輸出結果可以保存在內存中,節省了大量的磁盤I/O操作。Spark除擁有Hadoop MapReduce所具有的優點外,還支持多次迭代計算,特別適合流計算和圖計算。

基于成本、效率、復雜性等因素,我們選擇了HDFS+Spark實現對告警數據的挖掘分析。

4 分析平臺設計

4.1 Hadoop集群搭建

基于CentOS-6.5系統環境搭建Hadoop集群,配置如表1所示。

4.2 Spark參數設置[6]

Spark參數設置如表2所示。

4.3 數據采集層

數據采集:由于需采集的告警設備種類繁多,故采取分布式的告警采集,數據網設備、交換網設備、接入網設備分別通過IP綜合網管、天元綜合網管、PON綜合網管進行采集,采集周期5分鐘一次。采集機先將采集到的告警日志文件,通過FTP接口上傳到智能網管系統文件服務器上,再對文件進行校驗,通過Sqoop推送到Hadoop集群上。

4.4 邏輯處理層

(1)建立高頻翻轉告警監控工作流程

先將海量告警進行初步刪選,通過數量、位置和時間三個維度的分析,得出高頻翻轉類告警清單列表,最后由專業工程師甄別確認,對某類告警進行重點關注和監控。

(2)差異化定制方案

按組網架構細分,針對核心重要節點的所有告警均納入實時監控方案;

按業務網絡細分,針對不同業務網絡設計個性化的監控方案;

按客戶業務細分,針對客戶數字出租電路設計個性化的監控方案。

4.5 數據分析層

Spark讀取Hive[7]表的告警數據,然后在Spark引擎中進行SQL統計分析。Spark SQL模K在進行分析時,將外部告警數據源轉化為DataFrame[8],并像操作RDD或者將其注冊為臨時表的方式處理和分析這些數據。一旦將DataFrame注冊成臨時表,就可以使用類SQL的方式操作查詢分析告警數據。表3是利用Spark SQL對告警工單做的一個簡單分析:

5 平臺實踐應用

探索運維數據分析的新方法,利用大數據分析技術,分析可能影響業務/設備整體性能的設備告警,結合網絡性能數據,找到網絡隱患,實現主動維護的工作目標。

5.1 高頻翻轉類告警監控

首先制定了高頻翻轉類告警分析規則,將連續7天每天原始告警發生24次以上定義為高頻翻轉類告警,并基于大數據平臺開發了相應的分析腳本,目前已實現全專業所有告警類型的分析。表4是全省高頻翻轉類TOP10排名。

5.2 核心設備和重要業務監控

目前以設備廠商或專家經驗評定告警監控級別往往會與實際形成偏差,主要表現在以下幾個方面:監控級別的差異化設定基于已知的告警類型,一旦網絡重大故障上報未知的告警類型就無法在第一時間有效監控到;同一類型的故障告警出現在不同網絡層面可能影響業務的程度是完全不同的;不同保障級別的客戶對故障告警監控的實時性要求也是不同的。

通過大數據分析平臺對差異化監控提供了靈活的定制手段,可根據告警關鍵字,分專業、地市、網管、機房、告警頻次等維度自主定制需要的告警數據,實現日、周、月、某個時間區等統計分析。

應用案例:省NOC通過大數據分析出一條編號為CTVPN80113的中國平安大客戶電路在一段時間內頻繁產生線路劣化告警,但用戶未申告,省NOC隨即預警給政企支撐工程師,政支工程師與用戶溝通后,派維護人員至現場處理,發現線路接頭松動,緊急處理后告警消除、業務恢復。

5.3 被過濾告警分析

全省每天網絡告警數據300萬條~500萬條,其中99%都會根據告警過濾規則進行過濾篩選,把過濾后的告警呈現給網絡監控人員。過濾規則的準確性直接影響告警數據的質量。一般來說告警過濾規則可以從具有豐富運維經驗的網絡維護人員獲得,但是這個過程非常繁瑣,而且通過人工途徑獲得的告警過濾規則在不同的應用環境可能存在差異,無法滿足網絡維護的整體需要。采用大數據技術對被過濾的告警進行分析可以很好地完善過濾規則,讓真正急迫需要處理的告警優先呈現給維護人員及時處理,真正做到先于客戶發現故障。表5是動環專業被過濾的告警情況分布。

5.4 動環深放電分析

動環網管通過C接口采集蓄電池電壓數據,在停電告警產生之后,電壓數據首次下降到45 V,表示該局站電池出現深放電現象,通過計算這一放電過程的持續時間,記為深放電時長,該時長可以初步反映電池的放電性能。一個局站每天產生幾十萬條電壓等動環實時數據。

在告警數據分析的基礎上,實現對蓄電池電壓變化數據的分析,提醒分公司關注那些深放電次數過多和放電時長過短的局站,核查蓄電池、油機配置、發電安排等,并進行整治。利用Spark SQL統計了一個月內撫州、贛州、吉安三分公司幾十億條動環數據,分析了其中深放電的情況如表6所示。

6 結論

本文利用HDFS+Spark技術,實驗性地解決告警數據存儲和分析等相關問題:一是通過數據分析,從海量告警數據中發現潛在的網絡隱患;二是結合資源信息和不同專業的告警,最終為用戶提供綜合預警;三是轉變網絡監控思路和方式,通過數據匯聚、數據相關性分析、數據可視化展示,提高了網絡監控效率;最后還擴展到對動環實時數據、信令數據進行分析。

從實際運行效果來看,HDFS和Spark完全可以取代傳統的數據存儲和計算方式,滿足電信運營商主動運維的需求。

參考文獻:

[1] 中國電信股份有限公司. 中國電信智能網管技術規范-總體分冊[Z]. 2015.

[2] Tom white. Hadoop權威指南[M]. 4版. 南京: 東南大學出版社, 2015.

[3] RP Raji. MapReduce: Simplified Data Processing on Large Clusters[Z]. 2004.

[4] Spark. Apache Spark?[EB/OL]. [2016-11-27]. http:///.

[5] Matei Zaharia, Mosharaf Chowdhury, Tathagata Das, et al. Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing[J]. Usenix Conference on Networked Systems Design & Implementation, 2012,70(2): 141-146.

[6] S鵬. Apache Spark源碼剖析[M]. 北京: 電子工業出版社, 2015.

[7] Hive. Apache HiveTM[EB/OL]. [2016-11-27]. http:///.

[8] Holden Karau, Andy Konwinski, Patrick Wendell, et al. Learning Spark: Lightning-Fast Big Data Analysis[M]. Oreilly & Associates Inc, 2015.

[9] 員建廈. 基于動態存儲策略的數據管理系統[J]. 無線電工程, 2014,44(11): 52-54.

數據分析分析技術范文第2篇

【關鍵詞】 數據挖掘技術 頻譜數據分析

前言:在對頻譜監測數據分析中,簡單統計分析已經無法滿足頻譜監測數據實際需求,需要對數據深入研究,探索配頻譜監測數據潛在關聯,尋找到異常信號,有效提升頻譜監測精確性,起到輔作用。數據挖掘技術在應用過程中,能夠挖掘海量數據內價值,有關監督設備可以對數據進行掃描,深入分析有關數據。

一、數據挖掘技術簡介

1.1數據挖掘的概念

在上世紀90年代內,研究人員提出了數據挖掘,主要目的就是希望能夠將所采集到的應用數據內所具有的潛在價值信息挖掘,獲取價值信息。數據挖掘內包含較多學科內容,例如人工智能、統計、可視化技術、數據庫等。數據挖掘在對數據分析研究過程中,主要采取分類及聚類進行監測,對有關知識進行演變。數據挖掘常見模式主要分為四種,分別為頻繁模式、分類模式、聚類模式與異常模式[1]。

1.2數據挖掘的過程

1、數據準備。數據準備階段主要包含兩方面工作,分別為數據獲取和數據預處理。數據挖掘應用點在確定之后,能夠有效對有關數據進行收集,同時對數據背景進行掌握,對挖掘模式進行確定。有關數據在收集之后,需要對數據內所包含的冗余數據及空缺數據進行預處理,為計算機分析奠定堅實基礎。

2、數據挖掘。數據娃聚主要是在數量及挖掘目標確定之后,選擇合適的數據挖掘方法及技術,對數據進行計算分析,構建針對性數據。

3、挖掘結果展示。數據挖掘技術所得到的數據結果,十分抽象,除了數據挖掘技術行業工作人員無法對數據挖掘結果進行了解,所以需要對數據挖掘結果進行轉化,通過圖形及圖像的方式,將挖掘結果在屏幕內顯示出來,直觀將挖掘結果展示出來,用戶能夠對挖掘結果深入理解。

4、挖掘結果應用分析。按照挖掘背景及目的,對數據挖掘結果進行系統性分析研究,進而找到海量數據內具有價值的信息,同時這些信息技有關生產,對數據挖掘結果正確性進行判斷,對數據挖掘有關知識進行修正、完善[2]。

二、數據挖掘技術在頻譜監測數據分析中的應用

2.1認知無線電中頻譜資源預測應用

認知無線在頻譜監測數據內應用,能夠有效提高頻譜監測數據質量,同時非授權用戶也可以對頻譜資源進行利用。授權用戶在對頻譜監測數應用過程中,非授權用戶能夠直接將頻譜監測數據資源讓出來,非授權用戶就需要充分構建頻譜途徑,構建通信連接。非授權用戶要是沒有直接將頻譜資源讓出來,授權用戶與非授權用戶之間就會產生矛盾,進而造成通信中斷,這樣情況所將的損失將是無法預計的。所以,非授權用戶及授權用戶要是都能夠對頻譜資源精確劃分,能夠有效對資源矛盾事件防止,在這種情況下頻譜監測資源利用效率也就顯著提升。

正式由于認識無線電技術在實際應用內所具有的優勢,在對認知無線電技術分析研究過程中,需要將重點放在授權用戶應用規律上面,對授權用戶占據頻譜監測數據空余時間進行預測,幫助非授權用戶能夠在授權用戶空余時間內尋找利用有關資源,這種預測性分析研究主要是通過數據挖掘技術內的頻發模式實現。

2.2異常無線電信號監測應用

無線電監測站在常規監測過程中,最為主要的一項工作就是對異常無線電信號進行監測,嚴禁非法占用情況出現,有效提高無線電通信安全性能。

按照無線電監測所產生的數據可知,頻譜設備屬于常規性運行,一旦出現異常運行情況,所輸出的信號就與常規狀態下信號存在一定差異。所以,想要了解頻譜設備出現異常情況,只需要將將信號進行分析比較,數據挖掘技術能夠有效對海量信號內特點進行提取,在海量信號內尋找到異常信號。數據挖掘技術在無線電監測內應用,首先是通過無線電監測歷史數據構建數據模型,模型在具有自我學習能力之后,能夠應對無線電瞬息變化環境,對數據模型與歷史數據模型相似點進行計算,在發現無線電設備出現異常運行情況之后,數據模型就會發出警告。

結論:數據挖掘技術在頻譜監測數據分析內應用,能夠有效對l譜監測數據分析流程進行簡化,在大量數據信息內高效率的找到針對性數據信息,提高信息挖掘質量,進而為管理人員提供針對性意見。正式由于數據挖掘技術在頻譜監測數據分析內所具有的作用,所以對數據挖掘技術進行分析研究,能夠有效推動頻譜監測數據發展。

參 考 文 獻

數據分析分析技術范文第3篇

關鍵詞:油田生產;大數據;數據挖掘

前言

新疆油田重油開發公司是以稠油開采為主的采油廠。有著將近10年的數字油田建設歷史。而且中心數據庫已經做得很成熟,主要包括五大業務板塊數據。即勘探業務板塊、開發業務板塊、生產業務板塊、經營業務板塊的數據庫。數據庫包括的內容主要有單井、區塊的日月報數據、試井與生產測井數據、分析化驗數據、井下作業和地理信息數據等。數據庫的數據資源種類齊全,質量高。2010年新疆油田重油開發公司正式開始進行智能化油田建設工作,利用物聯網診斷單井問題,使用大數據技術對油田進行全面感知、分析預測、優化決策找到油水井的生產規律,從而有助于油田生產工作進行。

1 油田大數據的概念及處理流程

大數據有四個特點即量大(Volume)、快速生產(Velocity)、類型豐富(Variety)、真實性(Veracity),被稱為4V[1]。由于數據的數量非常大,就將數據組成數據集,進行管理、處理實現數據的價值。大數據對數據庫的整理流程是將數據轉化為信息,將信息轉化為知識,再將知識轉化為智慧。這個過程應用于油田可以理解為是對油田的生產和管理工作。大數據的七個處理步驟包括:對數據的提取和收集、清洗數據、分析數據找到潛在的內在價值規律、建立預測模型、對結果進行可視化的估計、驗證結果、評估模型。

2 大數據分析平臺及體系架構研究

新疆油田為了滿足生產應用,構建了一個有效的大數據分析平臺及體系架構。此平臺主要包括四個基礎架構:數據抽取平臺、進行分布式的存儲平臺、大數據的分析與展示平臺。最底層是數據抽取平臺主要是實現數據的整合,將數據轉化成適合進行數據挖掘或者建模的形式,構建可靠的樣本數據集。存儲平臺主要是對數據進行匯總、建模、分析,最后將處理好的數據進行儲存。其功能與數據倉庫相似。大數據分析層,是在大數據建模的工具和算法基礎上,挖掘隱藏的數據模式和關系,利用數據軟件進行分類、建模,生成預測的結果,結合專家經驗利用測試的樣本選定評價方案不斷提高模型的精度,更好的用于油田的決策。數據應用層主要是把建立的模型設計為運行軟件,運用建模方法實現數據的可視化界面設計,更好的實現人機交互。

3 大數據分析技術研究

進行大數據分析時我們經常采用兩大技術即大數據預處理和抽取技術,大數據分析技術。

3.1 大數據抽取及預處理技術

大數據預處理和抽取技術的原理是指將不同名稱,不同時間,不同地點的多種不同結構和類別的數據抽取處理成一種所表達的算法和內涵一致便于處理類型的數據結構[2]。在檢查數據缺失、數據異常時可以使用數據清洗方法確定有用的數據,一般采用剔除法或估計值法、填補平均值替換錯誤的數據。為了滿足建模所需的大量數據,創建新的字段時需要進行數據庫的構建。將原始數據用一定的方法如歸一法轉換為可用于數據挖掘的數據,這個過程為數據轉換。

3.2 大數據分析技術

應用于油田的大數據分析技術為:因子分析技術、聚類分析技術、回歸分析技術和數據挖掘技術。其中的因子分析技術是指,利用少數的因子對多個指標和因素間的相關性進行描述,一般將密切相關的多個變量歸納為一類,這一類數據就屬于一個影響因子,用較少的因子反應大量數據的信息。聚類分析技術是指把具有某種共同特性的事物或者物體歸屬于一個類型,并按照這些特性劃分為幾個類別,同種類型的事物相似性較高。這樣更利于辨別預先未知的事物特征。回歸分析是指在一組數據的基礎之上,研究一個變量和其他變量間隱藏的關系。利用回歸方程,進行回歸分析,從而有規律地把變量之間的不規則,不確定的復雜關系簡單得表示出來。

在使用大數據進行分析時,數據挖掘技術是最關鍵的一門技術。該技術將大量復雜的、隨機性的、模糊的、不完整的數據進行分析,挖掘出對人類未來有用的數據,即提前獲得未知信息的過程[3]。數據挖掘功能分為預測功能和描述功能。數據預測是指對數據進行處理推算,完成預測的目的。數據描述是展現集體數據的特性。數據挖掘功能是與數據的目標類型有關,有的功能適用于不同類型的數據,有的功能則只適用于特定功能的數據。數據挖掘的作用就是讓人們能夠提前得到未知的消息,提升數據的有效性,使其可以應用于不同的領域。

4 大數據分析在油田生產中的應用研究

4.1 異常井自動識別

油田生產過程中影響最大的一個因素是異常井的出現,因此生產管理人員加大了對異常井的重視。最初,異常井的識別主要是依靠生產部門的生產人員,必須經過人工查閱許多關于油田生產的資料才能確定異常井,這種人工檢閱的方法存在很多缺陷。比如說大量的檢索工作、耗費時間長等,對異常井的診斷和措施制定造成很大的困難。異常井是指油井當天的產油量和上個月相比波動很大,并大于正常的波動范圍。目前廣泛采用數據挖掘技術和聚類分析技術對異常井進行識別,提高效率。為了實現算法編譯使用技術,系統架構B/S模式進行,能夠及時發現異常井的存在。

4.2 異常井智能診斷

異常井診斷是油田每天進行生產必須要完成的工序。而大部分油田采用人工方法對其進行異常診斷,工作量極大,影響因素較多,診斷結果的可靠性較低,對后期進行計劃實施造成很大的影響。這時可以采用智能診斷方法,利用灰度圖像處理技術和人臉識別算法建立抽油井的特征功圖庫,對比油井當前的功圖和所建立的特征功圖,實現異常井的診斷。若是相似則不屬于異常井,反之,則為異常井。但是有時一種工況可能會有許多中表現方式,致使功圖解釋存在很多種狀況,可以采取因子分析法,分析每個工況下關聯的因子間是如何變化,然后建立參數診斷數據庫,對比相關因子的指標項,找到異常的原因,采取適合的方案進行修改,從而提高單井的生產效率。

4.3 間抽井開關井計劃制訂

當油田開發進入后期階段就會出現很多問題,過度開發使得地層的能量越來越少,致使更多供液不足的井開發出來。將這類井稱之為間歇出油井。新疆油田一般會使用人工方法制訂間歇出油井的開關時間計劃,但是對于計劃的合理性沒有進行檢驗。若是能夠控制好間歇出油井的開關時間,對油田實現節能減排是至關重要的。這時可以采用因子分析方法和回歸分析法進行研究,利用數據挖掘技術找出影響間歇出油井的開關時間的因素,建立合適的分析模型,對模型進行線性回歸,進行歸一化處理。從而為業務人員提供制訂間歇出油井開關時間的合理方案,達到節能減排的效果。

4.4 油井清防蠟預測

目前油田上對于油井清蠟采取平均每口井一個月清洗一次蠟的措施,按照人工計劃進行,出現了許多問題。比如,一些井還沒有結蠟就已被清洗,有些井已經結蠟,卻沒有得到及時清洗。這樣既浪費大量的人力物力,而且還對油田的生產效率產生不利影響。若是利用因子分析法,將收集的關于結蠟周期、清蠟方式、清蠟用量、油井狀況等數據進行分析,建立油井Y蠟模型,再利用回歸分析法對建立的模型建立曲線方程,進行預測,找到結蠟時間,推斷出結蠟周期,更好的指導油田清蠟工序的進行,提高油田的精細化管理。

5 結束語

總之,對比以前利用人工進行油田生產可以發現大數據對于油田生產是非常必要的,可以更快的挖掘油田的生產作業規律,解決油田生產的困難。而且,可以利用油田數據進行可視化分析,關注問題的主要影響因素找到管理中存在的不足,預防未來問題的出現。大數據的核心價值就是通過以往大量數據進行分析,預測出未來,從而更好地指導油田的生產工作。

參考文獻

[1]楊澤民.數據挖掘中關聯規則算法的研究[J].軟件,2013(11):71-72.

數據分析分析技術范文第4篇

    論文摘要:電子商務(EC)在現代商務企業的發展中占有越來越重要的地位。如何利用信息技術掌握更多的商務信息已備受商家們的關注,站點分析技術正是為商家和網站提供了這樣一種有效的分析工具。

    本文討論了一些站點分析的相關技術信息和幾種網站分析瀏覽者行為的理論與算法,及數據倉庫的相關理論知識。并對站點日志數據進行了實例分析,并指出了站點分析技術發展的方向。

    一、緒論

    互聯網技術不斷革新與發展,給全球經濟帶來新的革命,從而也影響著人們的生活。互聯網為企業提供了一種真正屬于自己并面對廣大網民的信息載體,企業通過這一載體,可以自由地將企業的產品、服務等其他相關信息在線。

    電子商務就是網上實行各種商務活動的總包裝,種種所謂電子商務解決方案,實際上就是實現各種網上商務活動的硬件與軟件系統。它將影響到每一個人、每一個企業。電子商務的主體是我們每一個人、每一個企業,電子商務發展的過程就是對人們的生活、企業的運行的一種模式的一個巨大改變的過程。對于進入虛擬世界的商家而言,僅僅吸引注意力還不行,對它們而言,站點的訪問率絕對不僅僅是一個數字,它還是一種信息,如果網站能夠從網絡中獲得網民的信息并從中分析其行為誘因,那么就容易掌握網民的需求,從而利用互聯網去創造更多商機。

    電子商務站點用戶行為的分析這一問題也因此成為現如今的熱門話題,被人們普遍關心起來,尤其是被眾商家所重視。Web站點的日志數據正以每天數十兆的速度增長。如何分析這些數據,如何從這些大量數據中發現有用的、重要的知識(包括模式、規則、可視化結構等)也成為現在人們最關注的信息。

    在此情況下,站點用戶行為分析就可為網站或商家提供出大量有價值的信息,包括站點的受歡迎度的對比、商業廣告點擊情況總括、產品的反饋信息、站點各種信息的點擊情況等等。另外,還可根據不同的頁面內容來分類瀏覽者,以便做出更合理的頁面分類,促使網站逐步向個性化、最優化狀態發展。這一技術對互聯網的發展壯大有著不可忽視的巨大作用,它的發展對信息技術亦將產生深遠的影響。

    在電子商務早期階段時,Web站點數據流分析通常是在主頁上安裝計數器以及在一個外部日志文件上運行簡單的統計程序記錄點擊率。但是,簡單的點擊計數既不準確也遠未達到營銷目的所需的詳細程度。因此,各公司開始尋找更先進的分析工具,這類工具可以提供誰在訪問公司Web站點以及訪問者一旦進入站點后將做些什么的全面信息。站點開始分析的地方是Web服務器的訪問日志。每當用戶在站點上請求一個網頁時,這個請求就被記錄在訪問日志中。如:目前有多少用戶正在訪問站點、他們正在看哪些網頁以及他們在站點中呆了多長時間。顯然,日志分析和行為概況的正確組合可以對Web站點的成功產生直接影響。此外,從日志分析中得到的信息是很難從真實世界中捕獲到的,但這些信息卻可以較容易地在線收集到。Web數據流分析工具的這些最新進展可以使網站獲得有關上網客戶和他們習慣的詳細報告。

    二、站點信息統計方法

    Web頁面數據主要是半結構化數據,計算機網絡技術和信息技術的飛速發展,使得半結構化數據呈現日益繁榮的趨勢。半結構化數據,是一種介于模式固定的結構化數據,和完全沒有模式的無序數據之間,在查詢前無法預先確定其具體的類型和格式;同時它們相應的數據結構是不固定、不完全或不規則的,即這些數據有的本身就沒有結構,有的只有十分松散的結構,有的數據的結構是隱含的,需要從數據中進行抽取。而有時,盡管數據本身是有精確結構的,但為了一定的目的,而故意忽視它的結構。半結構化數據具有以下五方面的

    主要特點:

    1.結構是不規則的。包含異構數據、相同的數據信息用不同類型或不同的結構表示。

    2.結構是隱含的。如電子文檔SGML格式。

    3.結構是部分的,有時部分數據根本無結構,而部分數據只有粗略的結構。

    4.指示性結構與約束性結構。傳統的數據庫使用嚴格的分類策略來保護數據。而指示性數據結構是對結構的一種非精確的描述。它可接受所有新數據,代價是要頻繁修改結構。

    5.半結構化數據通常在數據存在之后才能通過當前數據歸納出其結構,稱之為事后模式引導。模式有時可被忽略,同時數據與數據模式間的區別逐漸消除。

    三、數據分析的方法

    Web頁面的數據通常是利用統計模型和數學模型來分析的。使用的模型有線性分析和非線性分析;連續回歸分析和邏輯回歸分析;單變量和多變量分析以及時間序列分析等。這些統計分析工具能提供可視化功能和分析功能來尋找數據間關系、構造模型來分析、解釋數據。并通過交互式過程和迭代過程用來求精模型,最終開發出最具適應性的模型來將數據轉化為有價值的信息。

    知識發現是從數據倉庫的大量數據中篩取信息,尋找經常出現的模式,檢查趨勢并發掘實施。它是分析Web頁面數據的重要方法。知識發現與模式識別的算法有以下幾種:

    1.依賴性分析

    依賴性分析算法搜索數據倉庫的條目和對象,從中尋找重復出現概率很高的模式。它展示了數據間未知的依賴關系。利用依賴性分析算法可以從某一數據對象的信息來推斷另一數據對象的信息。例如:在雜貨店中,一堆椒鹽餅干放在陳列飲料的走道上,這是因為經過依賴性分析,商店認為:很大一部分買飲料的顧客如果在取飲料的路上看到椒鹽餅干的話就會購買,因而此種分析影響了商店布局。

    2.聚類和分類

    在某些情況下,無法界定要分析的數據類,用聚類算法發現一些不知道的數據類或懷疑的數據類。聚類的過程是以某一特定時間為依據,找出一個共享一些公共類別的群體,它稱為無監督學習。分類過程,這是發現一些規定某些商品或時間是否屬于某一特定數據子集的規則。這些數據類很少在關系數據庫中進行定義,因而規范的數據模型中沒有它們的位置。最典型的例子是信用卡核準過程,可確定能否按商品價格和其它標準把某一購買者歸入可接受的那一類中。分類又稱為有監督學習。

    3.神經網絡

    神經網絡通過學習待分析數據中的模式來構造模型。它對隱式類型進行分類。圖像分析是神經網絡最成功的應用之一。神經網絡用于模型化非線性的、復雜的或噪聲高的數據。一般神經模型由三個層次組成:數據倉庫數據輸入、中間層(各種神經元)和輸出。它通常用恰當的數據庫示例來訓練和學習、校正預測的模型,提高預測結果的準確性。

    4.數據挖掘中的關聯規則

數據分析分析技術范文第5篇

【關鍵詞】Hadoop 電力行業 大數據分析

隨著互聯網+時代的到來,各行業數據的共享與融合越來越迫切。電力生產關系民生和經濟發展,隨著電力信息化的發展,涉及發電、輸電、變電、配電、用電等各個環節的數據呈爆發性增長,PB數量級的數據,已無法通過傳統的數據管理、抽取、分析技術挖掘數據間的多重關聯關系,從而更有效的實現電力風險預警,提高生產效率和智能調度功能。

1 Hadoop平臺介紹

Hadoop是Apache軟件基金會旗下的一個開源分布式計算平臺。以Hadoop分布式文件系統和MapReduce為核心的Hadoop為用戶提供了系統底層細節透明的分布式基礎架構。HDFS的高容錯性、高伸縮性等優點允許用戶將Hadoop部署在低廉的硬件上,形成分布式系統,MapReduce分布式編程模型允許用戶在不了解分布式系統底層細節的情況下開發并行應用程序。所以用戶可以利用Hadoop輕松地組織計算機資源,從而搭建自己的分布式計算平臺,并且可以充分利用集群的計算和存儲能力,完成海量數據的處理。

Avro是doug cutting主持的RPC項目,有點類似Google的protobuf和Facebook的thrift。是用于數據序列化的系統。提供了豐富的數據結構類型、快速可壓縮的二進制數據格式、存儲持久性數據的文件集、遠程PRC調用以及簡單的動態語言集成功能。

實現了MapReduce編程框架,用于大規模數據集的并行運算。能夠使編程人員在不理解分布式并行編程概念的情況下也能方便將自己的程序運行在分布式系統上。

HDFS分布式文件系統,其設計目標包括:檢測和快速恢復硬件故障;數據流的訪問;簡化一致性模型等。

Zookeeper是Google的Chubby一個開源的實現。它是一個針對大型分布式系統的可靠協調系統,提供的功能包括:配置維護、名字服務、分布式同步、組服務等。ZooKeeper的目標就是封裝好復雜易出錯的關鍵服務,將簡單易用的接口和性能高效、功能穩定的系統提供給用戶。

Pig是SQL-like語言,是在MapReduce上構建的一種高級查詢語言,把一些運算編譯進MapReduce模型的Map和Reduce中,并且用戶可以定義自己的功能。Yahoo網格運算部門開發的又一個克隆Google的項目Sawzall。

Chukwa是基于Hadoop的大集群監控系統,是開源的數據搜集系統。通過HDFS來存儲數據,并依賴MapReduce來處理數據。

2 數據抽取分析模型

目前電力行業數據包含結構化數據如常規oracle,MySQL等數據庫類型,同時也存在大量log日志文件,e文件等非結構化數據,為能全面有效的實現多業務,多數據綜合建模分析,設計如圖2所示,數據處理模型。主要由數據抽取、格式清洗和DFS分布式文件系統構成,同時為下一步大數據建模分析打好基礎。

數據抽取模塊主要負責從原業務系統獲得結構化和非結構化業務數據。通過在數據抽取工具中配置前端機器名稱、端口號、加密用戶名密碼、數據表等信息,實現結構化數據的抽取工作。對于日志類文件由于在原服務運行期間日志文件是持續寫入狀態,因此必須在原系統設置,系統日志按時間節點分割,一般可按具體業務運行情況和日志產生量和產生大小進行設定,避免因日志文件過大或網絡繁忙,在抽取時對業務造成影響。

格式清洗模塊主要是對原始數據中多種不同配置格式進行統一,特別是對非結構化數據,需定義每個字段的含義和位置以及統一分隔符,同時還會去掉一些記錄不完整的壞數據,保證數據的格式統一,信息完成。最后導入HDFS文件系統進行存儲。

數據分析通過Map/Reduce操作實現,通過設計業務分析模型,定位此項數據分析所需輸入數據,并將數據數據分割成若干獨立的塊,并根據Inputformat把Y料讀入成一組(key,value)對,然后通過mapper count分給不同的mapper進行處理。再設計模型中,通過設置滿足要求的map任務值,并引入哈希算法,將mapper對應初始的(initialkey,initialvalue)生成中間數據集(interkey,intervalue)劃分為多個任務,將模值相等的任務丟到統一節點上計算,以實現比較平衡的分類效果。

Reducer對mapper產生的(interkey,intervalue)中間數據集,進行驅蟲、過濾等后期處理后,得到結果。為實現輸出文件格式支持通過key來高效的自由訪問,并得到有序的數據輸出,在reducer中加入排序環節,將所有的中間數據集根據key來排序的。這樣每個小塊都很容易生成一個序列化的輸出文件。

通過展示系統,實現各業務模型數據分析結果圖形化的展示在監控大屏上,同時桌面用戶還可通過瀏覽器或客戶端在終端上查詢分析結果。

3 總結

通過hadoop平臺構建電力行業大數據分析模型,可按照業務需要進行靈活進行組合,提高各專業間的數據共享融合,實現由點狀業務分析模式,到貫穿“三集五大”各專業的網狀業務分析模式,可進一步提高電網的健壯性、互動性和智能化,為社會經濟穩定發展提供保障。

主站蜘蛛池模板: 瓮安县| 武汉市| 普定县| 镇安县| 白城市| 鹤庆县| 游戏| 宁远县| 措勤县| 神农架林区| 维西| 二连浩特市| 钟祥市| 吴川市| 焦作市| 玉屏| 阜康市| 合作市| 攀枝花市| 萨迦县| 金川县| 宁津县| 新昌县| 昌图县| 晋州市| 南溪县| 临海市| 望都县| 梓潼县| 虹口区| 青铜峡市| 洱源县| 乐陵市| 泾源县| 泰和县| 藁城市| 肥城市| 奈曼旗| 内江市| 新晃| 漳平市|