日韩精品高清自在线,国产女人18毛片水真多1,欧美成人区,国产毛片片精品天天看视频,a毛片在线免费观看,午夜国产理论,国产成人一区免费观看,91网址在线播放
公務(wù)員期刊網(wǎng) 精選范文 數(shù)據(jù)挖掘技術(shù)范文

數(shù)據(jù)挖掘技術(shù)精選(九篇)

前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的數(shù)據(jù)挖掘技術(shù)主題范文,僅供參考,歡迎閱讀并收藏。

數(shù)據(jù)挖掘技術(shù)

第1篇:數(shù)據(jù)挖掘技術(shù)范文

關(guān)鍵詞:Web數(shù)據(jù)挖掘;分類;流程

中圖分類號:TP311文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2009)26-7335-01

WebData Mining Technology

SONG Yu

(Wuhan Institute of Shipbuilding Technology, Wuhan 430050, China)

Abstract: In this paper, Webdata mining technology, the basic idea was introduced to describe the content, structure, excavation of the use of three main types of Webdata mining, and a typical Webdata mining process are described.

Key words: Webdata mining; classification; process

所謂數(shù)據(jù)挖掘Data Mining 就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的原始數(shù)據(jù)中提取隱含在其中的、事先未知的、但又是潛在有用的信息和知識的過程 。

1 什么是Web的數(shù)據(jù)挖掘

Web挖掘是從Web資源上抽取信息或知識的過程,它是將傳統(tǒng)的數(shù)據(jù)挖掘的思想和方法應(yīng)用于Web,從Web文檔和Web活動中抽取感興趣的、潛在的、有用的模式和隱藏信息。Web挖掘可在多方面發(fā)揮作用,如搜索引擎結(jié)構(gòu)的挖掘,搜索引擎的開發(fā),改進(jìn)和提高搜索引擎的質(zhì)量和效率,確定權(quán)威頁面。Web挖掘研究覆蓋了多個研究領(lǐng)域,包括數(shù)據(jù)庫技術(shù)、信息獲取技術(shù)、統(tǒng)計(jì)學(xué)、人工智能中的機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等。特別是電子商務(wù)領(lǐng)域,通過對用戶特征的理解和分析,如對用戶訪問行為、頻度、內(nèi)容等的分析,提取出用戶的特征,從而為用戶定制個性化的界面,有助于開展有針對性的電子商務(wù)活動。

2 Web數(shù)據(jù)挖掘的分類

根據(jù)挖掘的對象不同我們可以把基于Web的數(shù)據(jù)挖掘分為三大類:

1) Web內(nèi)容的挖掘(WebContent Mining)

所謂Web內(nèi)容的挖掘?qū)嶋H上就是從Web文檔及其描述中獲取知識, Web文檔文件挖掘以及基于概念索引或Agent 技術(shù)的資源搜索也應(yīng)該歸于此類。Web信息資源類型眾多,目前WWW 信息資源已經(jīng)成為網(wǎng)絡(luò)信息資源的主體,然而除了大量的人們可以直接從網(wǎng)上抓取、建立索引、實(shí)現(xiàn)查詢服務(wù)的資源之外,相當(dāng)一部分信息是隱藏著的數(shù)據(jù)(如由用戶的提問而動態(tài)生成的結(jié)果,存在于數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù),或是某些私人數(shù)據(jù))無法被索引,從而無法提供對它們有效的檢索方式,這就迫使我們把這些內(nèi)容挖掘出來。若從信息資源的表現(xiàn)形式來看,Web信息內(nèi)容是由文本、圖像、音頻、視頻、元數(shù)據(jù)等種種形式的數(shù)據(jù)組成的,因而我們所說的Web內(nèi)容的挖掘也是一種針對多媒體數(shù)據(jù)的挖掘。

2) Web結(jié)構(gòu)的挖掘(WebStructure Mining)

這一類型的挖掘是從萬維網(wǎng)的整體結(jié)構(gòu)和網(wǎng)頁上的相互鏈接中發(fā)現(xiàn)知識的過程,它主要挖掘Web潛在的鏈接結(jié)構(gòu)模式。這種思想源于引文分析,即通過分析一個網(wǎng)頁鏈接和被鏈接數(shù)量以及對象來建立Web自身的鏈接結(jié)構(gòu)模式。這種模式可以用于網(wǎng)頁歸類并且可以由此獲得有關(guān)不同網(wǎng)頁間相似度及關(guān)聯(lián)度的信息。Web結(jié)構(gòu)挖掘有助于用戶找到相關(guān)主題的權(quán)威站點(diǎn),而且對網(wǎng)絡(luò)資源檢索結(jié)果的排序有很大意義。

3) Web使用的挖掘(WebUsage Mining)

Web使用的挖掘,也稱為Web日志挖掘(WebLog Mining)。與前兩種挖掘方式以網(wǎng)上的原始數(shù)據(jù)為挖掘?qū)ο蟛煌?基于Web使用的挖掘面對的是在用戶和網(wǎng)絡(luò)交互的過程中抽取出來的第二手?jǐn)?shù)據(jù)。這些數(shù)據(jù)包括:網(wǎng)絡(luò)服務(wù)器訪問記錄、服務(wù)器日志記錄、用戶注冊信息以及用戶訪問網(wǎng)站時的行為動作等等。Web使用挖掘?qū)⑦@些數(shù)據(jù)一一紀(jì)錄到日志文件中,然后對積累起來的日志文件進(jìn)行挖掘,從而了解用戶的網(wǎng)絡(luò)行為數(shù)據(jù)所具有的意義。我們前面所舉的例子正屬于這一種類型。

3 Web挖掘技術(shù)的流程

Web挖掘指使用數(shù)據(jù)挖掘技術(shù)在WWW數(shù)據(jù)中發(fā)現(xiàn)潛在的、有用的模式或信息。Web挖掘研究覆蓋了多個研究領(lǐng)域,包括數(shù)據(jù)庫技術(shù)、信息獲取技術(shù)、統(tǒng)計(jì)學(xué)、人工智能中的機(jī)器學(xué)習(xí) 和神經(jīng)網(wǎng)絡(luò)等。Web挖掘可以在很多方面發(fā)揮作用,如對搜索引擎的結(jié)構(gòu)進(jìn)行挖掘,確定權(quán)威頁面,Web文檔分類,Weblog挖掘,智能查詢,建立MetaWeb數(shù)據(jù)倉庫等。

典型Web數(shù)據(jù)挖掘的處理流程如下:

3.1 查找資源

任務(wù)是從目標(biāo)Web文檔中得到數(shù)據(jù),值得注意的是有時信息資源不僅限于在線Web文檔,還包括電子郵件、電子文檔、新聞組,或者網(wǎng)站的日志數(shù)據(jù)甚至是通過Web形成的交易數(shù)據(jù)庫中的數(shù)據(jù)。

3.2 信息選擇和預(yù)處理

任務(wù)是從取得的Web資源中剔除無用信息和將信息進(jìn)行必要的整理。例如從Web文檔中自動去除廣告連接、去除多余格式標(biāo)記、自動識別段落或者字段并將數(shù)據(jù)組織成規(guī)整的邏輯形式甚至是關(guān)系表。

1) 模式發(fā)現(xiàn)

自動進(jìn)行模式發(fā)現(xiàn)。可以在同一個站點(diǎn)內(nèi)部或在多個站點(diǎn)之間進(jìn)行。

2) 模式分析

驗(yàn)證、解釋上一步驟產(chǎn)生的模式。可以是機(jī)器自動完成,也可以是與分析人員進(jìn)行交互來完成。

4 結(jié)束語

Web數(shù)據(jù)挖掘還有待進(jìn)一步的研究,尤其是近來對Web內(nèi)容挖掘方面集中在信息集成,如建立基于Web的知識庫或基于Web的數(shù)據(jù)倉庫的研究上。

參考文獻(xiàn):

[1] 范明,孟小峰.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2007.

第2篇:數(shù)據(jù)挖掘技術(shù)范文

[關(guān)鍵詞] 數(shù)據(jù)挖掘 數(shù)據(jù)挖掘方法

隨著信息技術(shù)迅速發(fā)展,數(shù)據(jù)庫的規(guī)模不斷擴(kuò)大,產(chǎn)生了大量的數(shù)據(jù)。但大量的數(shù)據(jù)往往無法辨別隱藏在其中的能對決策提供支持的信息,而傳統(tǒng)的查詢、報(bào)表工具無法滿足挖掘這些信息的需求。因此,需要一種新的數(shù)據(jù)分析技術(shù)處理大量數(shù)據(jù),并從中抽取有價值的潛在知識,數(shù)據(jù)挖掘(Data Mining)技術(shù)由此應(yīng)運(yùn)而生。

一、數(shù)據(jù)挖掘的定義

數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測未來可能發(fā)生的行為。數(shù)據(jù)挖掘的過程也叫知識發(fā)現(xiàn)的過程。

二、數(shù)據(jù)挖掘的方法

1.統(tǒng)計(jì)方法。傳統(tǒng)的統(tǒng)計(jì)學(xué)為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類問題,回歸分析用來找到一個輸入變量和輸出變量關(guān)系的最佳模型,在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關(guān)系的線性回歸,還有用來為某些事件發(fā)生的概率建模為預(yù)測變量集的對數(shù)回歸、統(tǒng)計(jì)方法中的方差分析一般用于分析估計(jì)回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應(yīng)用中有力的工具之一。

2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡單,實(shí)用的分析規(guī)則,它描述了一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關(guān)系,原因之一是它不受只選擇一個因變量的限制。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過關(guān)聯(lián)得到的屬性之間的關(guān)系都有實(shí)際應(yīng)用價值,要對這些規(guī)則要進(jìn)行有效的評價,篩選有意義的關(guān)聯(lián)規(guī)則。

3.聚類分析。聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃分成幾個組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內(nèi)部關(guān)系,從而對樣本結(jié)構(gòu)做出合理的評價,此外,聚類分析還用于對孤立點(diǎn)的檢測。并非由聚類分析算法得到的類對決策都有效,在運(yùn)用某一個算法之前,一般要先對數(shù)據(jù)的聚類趨勢進(jìn)行檢驗(yàn)。

4.決策樹方法。決策樹學(xué)習(xí)是一種通過逼近離散值目標(biāo)函數(shù)的方法,通過把實(shí)例從根結(jié)點(diǎn)排列到某個葉子結(jié)點(diǎn)來分類實(shí)例,葉子結(jié)點(diǎn)即為實(shí)例所屬的分類。樹上的每個結(jié)點(diǎn)說明了對實(shí)例的某個屬性的測試,該結(jié)點(diǎn)的每一個后繼分支對應(yīng)于該屬性的一個可能值,分類實(shí)例的方法是從這棵樹的根結(jié)點(diǎn)開始,測試這個結(jié)點(diǎn)指定的屬性,然后按照給定實(shí)例的該屬性值對應(yīng)的樹枝向下移動。決策樹方法是要應(yīng)用于數(shù)據(jù)挖掘的分類方面。

5.神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)建立在自學(xué)習(xí)的數(shù)學(xué)模型基礎(chǔ)之上,能夠?qū)Υ罅繌?fù)雜的數(shù)據(jù)進(jìn)行分析,并可以完成對人腦或其他計(jì)算機(jī)來說極為復(fù)雜的模式抽取及趨勢分析,神經(jīng)網(wǎng)絡(luò)既可以表現(xiàn)為有指導(dǎo)的學(xué)習(xí)也可以是無指導(dǎo)聚類,無論哪種,輸入到神經(jīng)網(wǎng)絡(luò)中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡(luò)模擬人腦神經(jīng)元結(jié)構(gòu),建立三大類多種神經(jīng)元網(wǎng)絡(luò),具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學(xué)習(xí)、自組織和自適應(yīng)能力的種種優(yōu)點(diǎn)。

6.遺傳算法。遺傳算法是一種受生物進(jìn)化啟發(fā)的學(xué)習(xí)方法,通過變異和重組當(dāng)前己知的最好假設(shè)來生成后續(xù)的假設(shè)。每一步,通過使用目前適應(yīng)性最高的假設(shè)的后代替代群體的某個部分,來更新當(dāng)前群體的一組假設(shè),來實(shí)現(xiàn)各個個體的適應(yīng)性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強(qiáng)的個體,產(chǎn)生新種群(后代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進(jìn)行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進(jìn)行變異的過程。在數(shù)據(jù)挖掘中,可以被用作評估其他算法的適合度。

7.粗糙集。粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗(yàn)知識的情況下,只以考察數(shù)據(jù)的分類能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理問題。粗糙集用于從數(shù)據(jù)庫中發(fā)現(xiàn)分類規(guī)則的基本思想是將數(shù)據(jù)庫中的屬性分為條件屬性和結(jié)論屬性,對數(shù)據(jù)庫中的元組根據(jù)各個屬性不同的屬性值分成相應(yīng)的子集,然后對條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補(bǔ)集元素的元素。粗糙集理論可以應(yīng)用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。

8.支持向量機(jī)。支持向量機(jī)(SVM)是在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出來的一種新的機(jī)器學(xué)習(xí)方法。它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則上的,盡量提高學(xué)習(xí)機(jī)的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學(xué)習(xí)問題,現(xiàn)已成為訓(xùn)練多層感知器、RBF神經(jīng)網(wǎng)絡(luò)和多項(xiàng)式神經(jīng)元網(wǎng)絡(luò)的替代性方法。另外,支持向量機(jī)算法是一個凸優(yōu)化問題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點(diǎn)都是包括神經(jīng)元網(wǎng)絡(luò)在內(nèi)的其他算法所不能及的。支持向量機(jī)可以應(yīng)用于數(shù)據(jù)挖掘的分類、回歸、對未知事物的探索等方面。

事實(shí)上,任何一種挖掘工具往往是根據(jù)具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。

三、結(jié)束語

目前,數(shù)據(jù)挖掘技術(shù)雖然得到了一定程度的應(yīng)用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對數(shù)據(jù)挖掘技術(shù)的深人研究,數(shù)據(jù)挖掘技術(shù)必將在更加廣泛的領(lǐng)域得到應(yīng)用,并取得更加顯著的效果。

第3篇:數(shù)據(jù)挖掘技術(shù)范文

關(guān)鍵詞:數(shù)據(jù)挖掘;聚類算法;關(guān)聯(lián)規(guī)則;決策樹;遺傳算法

中圖分類號:TP301文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2009)13-3331-02

1 引言

數(shù)據(jù)挖掘是一個多學(xué)科的交叉領(lǐng)域,這些學(xué)科包括數(shù)據(jù)庫技術(shù)、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、模式識別、信息檢索、神經(jīng)網(wǎng)絡(luò)、基于知識的系統(tǒng)、人工智能、高性能計(jì)算和數(shù)據(jù)可視化等[1]。目前,對于數(shù)據(jù)挖掘方面的研究已經(jīng)取得了很大的進(jìn)展,開發(fā)出了許多新的數(shù)據(jù)挖掘算法、系統(tǒng)和應(yīng)用。本文將先對數(shù)據(jù)挖掘的概念及實(shí)施步驟進(jìn)行說明,然后將分類歸納數(shù)據(jù)挖掘中的各種常見算法,最后對數(shù)據(jù)挖掘目前的研究方向進(jìn)行預(yù)測。

2 數(shù)據(jù)挖掘的概念及流程

2.1 數(shù)據(jù)挖掘的概念

簡單地說,數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中“挖掘”知識,即從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道、但又是潛在有用的信息和知識的過程。它是一種決策支持過程,可以從企業(yè)數(shù)據(jù)庫的大量數(shù)據(jù)中,挖掘出潛在的模式,預(yù)測客戶的行為,幫助企業(yè)的決策者做出正確的判斷,從而減少投資的風(fēng)險(xiǎn),獲得更大的利潤。

2.2 數(shù)據(jù)挖掘的流程

一般來講,數(shù)據(jù)挖掘的整個過程由五個步驟組成:

1) 數(shù)據(jù)挖掘的最后結(jié)果是不可預(yù)測的,但是要探索的問題應(yīng)該是有預(yù)見的,為了數(shù)據(jù)挖掘而進(jìn)行數(shù)據(jù)挖掘,是不可取的。因此,清晰地定義出業(yè)務(wù)問題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的第一步,也是很重要的一步。

2) 數(shù)據(jù)準(zhǔn)備[2],數(shù)據(jù)準(zhǔn)備又可以分成數(shù)據(jù)選擇,數(shù)據(jù)預(yù)處理,數(shù)據(jù)轉(zhuǎn)化三個步驟。數(shù)據(jù)選擇,是從大量與業(yè)務(wù)對象有關(guān)的數(shù)據(jù)中選擇出適合進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù);數(shù)據(jù)預(yù)處理,包括進(jìn)行數(shù)據(jù)清洗,數(shù)據(jù)推測,數(shù)據(jù)轉(zhuǎn)換等。數(shù)據(jù)清洗,指的是清除掉一些明顯的噪聲數(shù)據(jù),提高數(shù)據(jù)的質(zhì)量;數(shù)據(jù)推測,是因?yàn)樵谇懊鎯刹街?也許會出現(xiàn)數(shù)據(jù)不全的情形,所以進(jìn)行適當(dāng)?shù)耐扑?補(bǔ)齊所需的數(shù)據(jù);數(shù)據(jù)轉(zhuǎn)換,是將數(shù)據(jù)轉(zhuǎn)換成一個分析模型,這個分析模型是針對數(shù)據(jù)挖掘算法建立的,建立一個真正適合挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關(guān)鍵;數(shù)據(jù)轉(zhuǎn)化,則是在做完前面的步驟以后,適當(dāng)?shù)目s減即將進(jìn)行分析的數(shù)據(jù)庫規(guī)模,以上這些工作會直接影響到數(shù)據(jù)挖掘時的效率和準(zhǔn)確性,同樣很重要。

3) 數(shù)據(jù)挖掘,這是整個數(shù)據(jù)挖掘過程中最重要的一步,即使用適當(dāng)?shù)臄?shù)據(jù)挖掘算法對剛才處理出的數(shù)據(jù)進(jìn)行分析,進(jìn)而得到可能的模式模型。根據(jù)不同數(shù)據(jù)的特點(diǎn)以及用戶不同的需求,對同樣的任務(wù),可以選用不同的算法,目前常見的算法包括聚類算法、關(guān)聯(lián)分析、分類算法、遺傳算法等。

4) 結(jié)果評價,通過上述步驟得到的模式模型,并不一定是真實(shí)有效的,甚至可能會是和實(shí)際情況完全相反的,所以還需要對得到的結(jié)果進(jìn)行評價。這一步使用的方法包括用數(shù)據(jù)代入進(jìn)行驗(yàn)證,也可以根據(jù)常規(guī)的經(jīng)驗(yàn)進(jìn)行一些判斷,一般由數(shù)據(jù)挖掘具體操作而定。如果沒有得到合適的模式模型,就需要重新選擇數(shù)據(jù),甚至需要選用其他的數(shù)據(jù)挖掘算法,因此,數(shù)據(jù)挖掘的過程往往都是一個不斷反復(fù)的過程。

5) 知識同化,完成上述步驟后,如果得到了可以接受的模式模型,就需要進(jìn)一步把得出的模型形象化,運(yùn)用到所需的信息系統(tǒng)中去。

3 數(shù)據(jù)挖掘的常見算法

數(shù)據(jù)挖掘常用的分析方法包括聚類算法(Cluster Algorithm)、關(guān)聯(lián)規(guī)則(Association Rules)、決策樹算法(Decision Tree Algorithm)、遺傳算法(Genetic Algorithm)等。

3.1 聚類算法

聚類是一種常見的數(shù)據(jù)分析工具,其目的是把大量數(shù)據(jù)點(diǎn)的集合分成若干類,使得每個類中的數(shù)據(jù)之間最大程度的相似,而不同類中的數(shù)據(jù)最大程度的不同。常見的聚類算法主要包括層次聚類算法(Hierarchical Clustering Method)、分割聚類算法 (Partitioning Clustering Method)、基于密度的方法(Density-Based Methods)、基于網(wǎng)格的方法(Grid-Based Methods)等[3]。

1) 層次聚類算法,是通過將給定的數(shù)據(jù)集組織成若干組數(shù)據(jù),并形成一個相應(yīng)的樹狀圖,進(jìn)行層次式的分解,直到某種條件滿足為止,具體又可分為“自底向上”和“自頂向下”兩種算法[4]。這兩種算法的思路正好相反,前者是將每個對象都作為一個原子聚類,再進(jìn)行聚合,最后得到相應(yīng)的結(jié)果,而后者是將所有對象看成一個聚類,再進(jìn)行分解。CURE算法、CHAMELEON算法、BIRCH算法等是比較常用的層次聚類算法。

2) 分割聚類算法,是先將數(shù)據(jù)集分成k個分組,每一個分組就代表一個聚類,然后從這k個初始分組開始,然后通過反復(fù)迭代的方法改變分組,使得每一次改進(jìn)之后的分組方案都較前一次好,最終使同一分組中的記錄越來越近,不同分組中的記錄原來越遠(yuǎn),從而得到最優(yōu)解。使用這一思想的主要算法有K-means算法、K-medoids算法、CLARANS算法等。

3) 基于密度的方法與其它方法的最要區(qū)別在于:它不基于各種距離,而是從數(shù)據(jù)對象的分布密度出發(fā),將密度足夠大的相鄰區(qū)域連接起來,從而可以發(fā)現(xiàn)具有任意形狀的聚類,并能有效處理異常數(shù)據(jù),它的代表算法有DBSCAN算法、OPTICS算法、DENCLUE算法等。

4) 基于網(wǎng)格的方法則是從對數(shù)據(jù)空間劃分的角度出發(fā),利用屬性空間的多維網(wǎng)格數(shù)據(jù)結(jié)構(gòu),將數(shù)據(jù)空間劃分為有限空間的單元,以構(gòu)成一個可以進(jìn)行聚類分析的網(wǎng)格結(jié)構(gòu)。該方法的主要特點(diǎn)是處理時間與數(shù)據(jù)對象的數(shù)目無關(guān),但與每維空間劃分的單元數(shù)相關(guān),而且,這種方法還與數(shù)據(jù)的輸入順序無關(guān),可以處理任意類型的數(shù)據(jù),但是聚類的質(zhì)量和準(zhǔn)確性降低了,它的代表算法有STING算法[5]和CLIQUE算法等。

3.2 關(guān)聯(lián)規(guī)則

關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘研究的重要內(nèi)容,它描述了數(shù)據(jù)庫中一組對象與另一組對象之間存在的某種關(guān)聯(lián)關(guān)系。從大量商業(yè)記錄中挖掘有趣的關(guān)聯(lián)關(guān)系,有助于許多商務(wù)決策的制定,如分類設(shè)計(jì)、交叉購物等。關(guān)聯(lián)規(guī)則是形如A=>B的蘊(yùn)涵式,表示形式如pen=>ruler [支持度=20%,置信度=60%],支持度和置信度分別反映規(guī)則的有用性和確定性,這條規(guī)則就意味著所有的顧客中有20%的人同時購買了鋼筆和直尺,而買了鋼筆的顧客的60%也買了直尺。在關(guān)聯(lián)規(guī)則中,所有支持度大于最小支持度的項(xiàng)集稱為頻繁項(xiàng)集,簡稱頻集。如果一條關(guān)聯(lián)規(guī)則同時滿足最小支持度閾值和最小置信度閾值,就認(rèn)為它是有趣的,并稱為強(qiáng)關(guān)聯(lián)規(guī)則。

關(guān)聯(lián)規(guī)則挖掘一般分為兩步:1) 找出所有頻繁項(xiàng)集,即滿足最小支持度的項(xiàng)集;2) 從頻繁項(xiàng)集中產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。最為著名的關(guān)聯(lián)規(guī)則挖掘算法就是R.Agrawal和R.Srikant于1994年提出的挖掘布爾關(guān)聯(lián)規(guī)則中頻繁項(xiàng)集的原創(chuàng)性算法Apriori。它使用一種稱作逐層搜索的迭代方法,k項(xiàng)集用于探索(k+1)項(xiàng)集。首先,通過掃描數(shù)據(jù)庫,累積每個項(xiàng)的計(jì)數(shù),并收集滿足最小支持度的項(xiàng),找出頻繁1項(xiàng)集的集合。該集合記作L1。然后,L1用于找頻繁2項(xiàng)集的集合L2,L2用于找L3,如此下去,直到不能找到頻繁k項(xiàng)集。找每個Lk需要一次數(shù)據(jù)庫全掃描。

但是,Apriori算法也有其不足之處:1) 可能產(chǎn)生大量的候選集;2) 生成每個Lk都需要重復(fù)掃描數(shù)據(jù)庫。后來,陸續(xù)出現(xiàn)了一系列Apriori算法的改進(jìn)算法,以及其他的關(guān)聯(lián)規(guī)則挖掘算法,比如RIApriori算法、Apriori-improve算法、FP-growth算法等,這大大提高了關(guān)聯(lián)規(guī)則挖掘的速度和準(zhǔn)確性,也推動了關(guān)聯(lián)規(guī)則挖掘理論的進(jìn)一步發(fā)展。

3.3 決策樹算法

決策樹是一種類似于流程圖的樹結(jié)構(gòu),每個內(nèi)部節(jié)點(diǎn)(非樹葉節(jié)點(diǎn))表示在一個屬性上測試,每個分支代表一個測試輸出,而每個樹葉節(jié)點(diǎn)(或終節(jié)點(diǎn))存放一個類標(biāo)號。決策樹算法主要圍繞決策樹的兩個階段展開:第一階段,決策樹的構(gòu)建,通過遞歸的算法將訓(xùn)練集生成一棵決策樹;第二階段,由測試數(shù)據(jù)檢驗(yàn)生成的決策樹,消除由于統(tǒng)計(jì)噪聲或數(shù)據(jù)波動對決策樹的影響,來達(dá)到凈化樹的目的,得到一棵正確的決策樹。常見的決策樹算法主要有ID3算法[6]、C4.5算法、CART算法、SPRINT算法等。

3.4 遺傳算法

遺傳算法是基于進(jìn)化理論,并采用遺傳結(jié)合,遺傳變異,自然選擇等設(shè)計(jì)方法的一種進(jìn)化計(jì)算算法的優(yōu)化算法。進(jìn)化計(jì)算算法的基礎(chǔ)是生物進(jìn)化,隨著時間的流逝,進(jìn)化出更好的或更適應(yīng)的個體。在數(shù)據(jù)挖掘中,遺傳算法可以用于評估聚類、關(guān)聯(lián)規(guī)則等算法的適合度。在應(yīng)用遺傳算法解決問題時,最困難的一步應(yīng)該是怎樣將問題建模成一組個體的集合,然后在計(jì)算中,首先假設(shè)一個初始模型,然后對其反復(fù)進(jìn)行雜交技術(shù)和變異技術(shù)的算法,最后用適應(yīng)度函數(shù)確定初始集合中應(yīng)該保留的那個最優(yōu)個體。這個算法的優(yōu)點(diǎn)在于容易并行化,但是對問題進(jìn)行建模很困難,雜交變異過程以及適應(yīng)度函數(shù)也很難確定。

4 結(jié)束語

隨著數(shù)據(jù)量的積累和數(shù)據(jù)庫種類的多樣化,數(shù)據(jù)挖掘的應(yīng)用前景非常的廣闊,從上面對各種常見算法的歸納可以看出,每種算法都有局限性,很難采用單一的方法解決相應(yīng)的問題,因此,多方法融合將成為數(shù)據(jù)挖掘未來的發(fā)展趨勢。

參考文獻(xiàn):

[1] 韓家煒,堪博.數(shù)據(jù)挖掘:概念與技術(shù)[M].2版.范明,孟小峰,譯.北京:機(jī)械工業(yè)出版社,2007.

[2] 曾瑩,陳曉.數(shù)據(jù)挖掘及算法淺談[J].中國科技信息,2005(14):75.

[3] 鄒志文,朱金偉.數(shù)據(jù)挖掘算法研究與綜述[J].計(jì)算機(jī)工程與設(shè)計(jì),2005,26(9):2304-2307.

[4] 賀玲,吳玲達(dá),蔡益朝.數(shù)據(jù)挖掘中的聚類算法綜述[J].計(jì)算機(jī)應(yīng)用研究,2007(1):10-13.

[5] Wang W,Yang J,Muntz R.STING:A statistical information grid approach to spetial data mining[C].Twenty―third international conference on very large data bases,l997.

[6] Quinlan J R.Introduction of decision trees[J].Machine Leaming,1986(1):81-106.

第4篇:數(shù)據(jù)挖掘技術(shù)范文

關(guān)鍵詞:Web數(shù)據(jù)挖掘;挖掘過程;挖掘技術(shù)

中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2009)15-3852-02

The Summary of Web Mining Technology

PAN Zheng-gao1,2

(1.School of Information and Computer,Hefei University of Technology,Hefei 230009,China;2.the Lab of Artificial Intelligence and Data Mining,Suzhou University,Suzhou 234000,China)

Abstract:WWW contains abundant information,as a enormous,extensive and global service center of information.Web Mining can be assumed speedinessly and effectively the information what we needed.This text introduce the types,procession and technologys of Web Mining,except the foreground of it's application.Those work based on the basic concept and characteristic of Web Mining.

Key words:Web Mining; Mining Course; Mining Technology

1 引言

隨著Internet的發(fā)展,Web信息迅速膨脹,如何從海量的Web信息中快速和準(zhǔn)確地獲取有用信息已經(jīng)成為近幾年數(shù)據(jù)挖掘領(lǐng)域研究的熱點(diǎn)。Web上的數(shù)據(jù)與其他的數(shù)據(jù)相比較存在著明顯的特點(diǎn),這些特點(diǎn)使得Web挖掘在方法和技術(shù)方面與傳統(tǒng)的數(shù)據(jù)挖掘有著顯著的不同。

2 Web數(shù)據(jù)挖掘的概念

Web數(shù)據(jù)挖掘(Web Mining),簡稱Web挖掘,是由Oren Etzioni在1996年首先提出的[1]。它是數(shù)據(jù)挖掘技術(shù)和Internet應(yīng)用研究相結(jié)合的研究領(lǐng)域。一般,對Web數(shù)據(jù)挖掘定義如下:Web數(shù)據(jù)挖掘是指Web從文檔結(jié)構(gòu)和使用的集合C中發(fā)現(xiàn)隱含的模式P。如果將C看作輸入,P看作輸出,則Web挖掘的過程就是從輸入到輸出的一個映射[2]。

Web挖掘是指從大量的Web數(shù)據(jù)中發(fā)現(xiàn)新穎的、潛在可用的及最終可以理解的知識(包括概念、模式、規(guī)則、規(guī)律、約束及可視化等形式)的非平凡過程。Web挖掘是數(shù)據(jù)挖掘技術(shù)和Internet應(yīng)用研究相結(jié)合的產(chǎn)物,其涉及的技術(shù)覆蓋了多個研究領(lǐng)域,包括數(shù)據(jù)庫技術(shù)、信息獲取技術(shù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等。

3 Web數(shù)據(jù)的特點(diǎn)[3]

1) 異構(gòu)數(shù)據(jù)庫環(huán)境。Web上的每一個站點(diǎn)就是一個數(shù)據(jù)源,每個數(shù)據(jù)源都是異構(gòu)的,因而每一站點(diǎn)的信息和組織都不一樣,這就構(gòu)成了一個巨大的異構(gòu)數(shù)據(jù)庫。

2) 分布式數(shù)據(jù)源。Web頁面散布在世界各地的Web服務(wù)器上,形成了分布式數(shù)據(jù)源。

3) 半結(jié)構(gòu)化。半結(jié)構(gòu)化是Web上數(shù)據(jù)的最大特點(diǎn)。Web上的數(shù)據(jù)非常復(fù)雜,沒有特定的模型描述,是一種非完全結(jié)構(gòu)化的數(shù)據(jù),稱之為半結(jié)構(gòu)化數(shù)據(jù)。

4) 動態(tài)性強(qiáng)。Web是一個動態(tài)性極強(qiáng)的信息源,信息不斷地快速更新,各站點(diǎn)的鏈接信息和訪問記錄的更新非常頻繁。

5) 多樣復(fù)雜性。Web包含了各種信息和資源,有文本數(shù)據(jù)、超文本數(shù)據(jù)、圖表、圖像、音頻數(shù)據(jù)和視頻數(shù)據(jù)等多種多媒體數(shù)據(jù)。

4 Web數(shù)據(jù)挖掘的分類

Web挖掘技術(shù)根據(jù)挖掘的方向一般分為三類:Web內(nèi)容挖掘,Web結(jié)構(gòu)挖掘和Web使用記錄的挖掘。

4.1 Web內(nèi)容挖掘(WCM,Web Content Mining)

Web內(nèi)容挖掘是指從大量的Web數(shù)據(jù)中發(fā)現(xiàn)信息、抽取知識的過程。這些Web數(shù)據(jù)的形式有Web頁面、Web頁面上各種鏈接所指向的內(nèi)容以及網(wǎng)絡(luò)數(shù)據(jù)庫里的數(shù)據(jù)等。從內(nèi)容方面,Web內(nèi)容挖掘可分為Web文本挖掘和Web多媒體挖掘,它們的不同在于提取的特征不同。從方法上,Web內(nèi)容挖掘可分為數(shù)據(jù)庫方法和信息抽取方法。

4.2 Web結(jié)構(gòu)挖掘(WSM,Web Structure Mining)

Web結(jié)構(gòu)挖掘是從Web的組織結(jié)構(gòu)、Web文檔結(jié)構(gòu)與其鏈接關(guān)系中挖掘潛在的知識和模式。通過對Web結(jié)構(gòu)的分析,可以發(fā)現(xiàn)頁面結(jié)構(gòu)和鏈接關(guān)系中所蘊(yùn)涵的有用模式;也可以對頁面及其鏈接進(jìn)行分類和聚類,發(fā)現(xiàn)權(quán)威頁面。有關(guān)這方面的算法研究成果有:Page-rank、HITS(Hyperlink-Induced Topic Search)及改進(jìn)的HITS(將內(nèi)容信息加入到鏈接結(jié)構(gòu)中去)、Hub/authority(Kleinberg,1998)[4]。

4.3 Web使用挖掘(WUM,Web Usage Mining)

Web使用挖掘是應(yīng)用數(shù)據(jù)挖掘技術(shù)從Web數(shù)據(jù)中發(fā)現(xiàn)用戶訪問模式的過程[5]。它可以幫助我們提高Internet信息服務(wù)的質(zhì)量,改進(jìn)Web服務(wù)器的系統(tǒng)性能和結(jié)構(gòu)。

5 Web數(shù)據(jù)挖掘過程

Web數(shù)據(jù)挖掘過程是一個完整的KDD過程,但是與傳統(tǒng)的數(shù)據(jù)和數(shù)據(jù)倉庫相比,Web上的信息是非結(jié)構(gòu)化或半結(jié)構(gòu)化的、動態(tài)的、并且是容易造成混淆的,所以很難直接以Web網(wǎng)頁上的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,而必須經(jīng)過必要的數(shù)據(jù)處理。典型Web挖掘的處理流程如圖1所示,包括如下四個過程:

1) 查找資源:根據(jù)挖掘目的,從Web資源中提取相關(guān)數(shù)據(jù),構(gòu)成目標(biāo)數(shù)據(jù)集,Web數(shù)據(jù)挖掘主要從這些數(shù)據(jù)通信中進(jìn)行數(shù)據(jù)提取。其任務(wù)是從目標(biāo)Web數(shù)據(jù)(包括Web文檔、電子郵件、電子文檔、新聞組、網(wǎng)站日志、網(wǎng)絡(luò)數(shù)據(jù)庫中的數(shù)據(jù)等)中得到數(shù)據(jù)。

2) 數(shù)據(jù)預(yù)處理:在進(jìn)行Web挖掘之前對“雜質(zhì)”數(shù)據(jù)進(jìn)行過濾,例如消除數(shù)據(jù)的不一致性;將多個數(shù)據(jù)源中的數(shù)據(jù)統(tǒng)一為一個數(shù)據(jù)存儲等。預(yù)處理數(shù)據(jù)的效果直接影響到挖掘算法產(chǎn)生的規(guī)則和模式。數(shù)據(jù)預(yù)處理主要包括站點(diǎn)識別、數(shù)據(jù)選擇、數(shù)據(jù)凈化、用戶識別和會話識別等。

3) 模式發(fā)現(xiàn):利用挖掘算法挖掘出有效的、新穎的、潛在的、有用的及最終可以理解的信息和知識。常用的模式發(fā)現(xiàn)技術(shù)包括:路徑分析、關(guān)聯(lián)規(guī)則挖掘、時序模式發(fā)現(xiàn)、聚類和分類等技術(shù)。

4) 模式分析:利用合適的工具和技術(shù)對挖掘出來的模式進(jìn)行分析、解釋、可視化,把發(fā)現(xiàn)的規(guī)則模式轉(zhuǎn)換為知識。

6 常用的數(shù)據(jù)挖掘技術(shù)

6.1 路徑分析技術(shù)

我們通常采用圖的方法來分析Web頁面之間的路徑關(guān)系。G=(V,E),其中:V是頁面的集合,E是頁面之間的超鏈接集合,頁面定義為圖中的頂點(diǎn),而頁面間的超鏈接定義為圖中的有向邊。頂點(diǎn)v的入邊表示對v的引用,出邊表示v引用了其他的頁面,這樣形成網(wǎng)站的結(jié)構(gòu)圖,從圖中可以確定最頻繁的訪問路徑。路徑分析技術(shù)常用于進(jìn)行改進(jìn)站點(diǎn)的結(jié)構(gòu)。如70%的用戶訪問/company/product時,是從/company開始,經(jīng)過/company/new/company/products/company/product。此時可以將路徑放在比較顯著的地方,方便了用戶訪問,也提高了該產(chǎn)品的點(diǎn)擊率。

6.2 關(guān)聯(lián)規(guī)則技術(shù)

關(guān)聯(lián)規(guī)則挖掘技術(shù)主要用于從用戶訪問序列數(shù)據(jù)庫的序列項(xiàng)中挖掘出相關(guān)的規(guī)則,就是要挖掘出用戶在一個訪問期限(Session),從服務(wù)器上訪問的頁面文件之間的聯(lián)系,這些頁面之間并不存在直接的參引(Reference)關(guān)系。使用關(guān)聯(lián)規(guī)則可以發(fā)展很多相關(guān)信息或產(chǎn)品服務(wù)。例如:某信息A和B,同時被很多用戶瀏覽,則說明A和B有可能相關(guān)。同時點(diǎn)擊的用戶越多,其相關(guān)度就可能越高。系統(tǒng)可以利用這種思想為用戶推薦相關(guān)信息或產(chǎn)品服務(wù)。如當(dāng)當(dāng)電子書店就采用了這一模式用以推薦相關(guān)書目。當(dāng)你選擇某本圖書時,系統(tǒng)會自動給你推薦信息,告知“很多讀者在購買此書時還購買的其他書目”。ACM數(shù)字圖書館也采用了這一思想,推出信息推薦服務(wù)“Peer to Peer”。

6.3 序列模式挖掘技術(shù)

序列模式數(shù)據(jù)挖掘技術(shù)就是要挖掘出交易集之間的有時間序列關(guān)系的模式。它與關(guān)聯(lián)挖掘技術(shù)都是從用戶訪問下的日志中尋找用戶普遍訪問的規(guī)律,關(guān)聯(lián)挖掘技術(shù)注重事務(wù)內(nèi)的關(guān)系,而序列模式技術(shù)則注重事務(wù)之間的關(guān)系。發(fā)現(xiàn)序列模式,便于預(yù)測用戶的訪問模式,有助于開展基于這種模式的有針對性的廣告服務(wù)。依賴于發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則和序列模式,能夠在服務(wù)器方動態(tài)地創(chuàng)立特定的有針對性的頁面,以滿足訪問者的特定需求。

6.4 聚類分類技術(shù)

分類規(guī)則可挖掘出某些共同的特性,而這一特性可對新添加到數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)進(jìn)行分類。在Web數(shù)據(jù)挖掘中,分類技術(shù)可根據(jù)訪問用戶而得到個人信息、共同的訪問模式以及訪問某一服務(wù)器文件的用戶特征。而聚類技術(shù)則是對符合某一訪問規(guī)律特征的用戶進(jìn)行用戶特征挖掘。發(fā)現(xiàn)分類規(guī)則可以識別一個特殊群體的公有屬性的描述,這種描述可以用于分類新的檢索。如政府機(jī)關(guān)的用戶一般感興趣的頁面是/company/product。聚類可以從Web訪問信息數(shù)據(jù)庫中聚集出具有相似特性的用戶群。在Web事務(wù)日記中聚類用戶信息或數(shù)據(jù)項(xiàng)能夠便于開發(fā)和執(zhí)行未來的市場戰(zhàn)略。這些事務(wù)信息可以用在:在找出用戶共同興趣后,進(jìn)行合作式信息推薦,共同體的成員可以互相推薦新的滾動信息;自動給一個特定的用戶聚類發(fā)送銷售郵件,為用戶聚類動態(tài)地改變一個特殊的站點(diǎn)等。

7 Web挖掘的研究熱點(diǎn)[6]

在未來一段時間內(nèi),Web挖掘研究的焦點(diǎn)可能會集中到以下幾個方面:

1) 高性能Web搜索引擎。盡管搜索引擎性能已有了較大提高,但搜索引擎的最終目標(biāo)是“理解用戶需求精確返回所需”,如何翻譯用戶的非專業(yè)搜索請求,實(shí)現(xiàn)自然語言處理,涉及興趣爬蟲、元搜索引擎、垂直搜索、移動搜索和多媒體搜索等方面的研究。

2) Web數(shù)據(jù)的特征描述與監(jiān)控。如何表示W(wǎng)eb文本內(nèi)容的特征數(shù)據(jù),如何表示和識別Web中的圖像、flash等多媒體數(shù)據(jù),進(jìn)而進(jìn)行網(wǎng)頁分類、內(nèi)容跟蹤、過濾和報(bào)警等,對于不良網(wǎng)站的監(jiān)控等有著積極意義。

3) Web數(shù)據(jù)的獲取與集成。包括Web文本特征的提取和表示,如何用一種廣泛兼容的半結(jié)構(gòu)化數(shù)據(jù)模型表示網(wǎng)頁;如何抽取動態(tài)網(wǎng)頁中的數(shù)據(jù);如何在分布的Web中獲取信息;如何在指定網(wǎng)頁中快速定位所需的數(shù)據(jù)區(qū);如何利用數(shù)據(jù)庫和數(shù)據(jù)倉庫技術(shù)查詢和存儲Web內(nèi)容等。

4) Web數(shù)據(jù)流挖掘。Web日志、cookie、點(diǎn)擊流等流式數(shù)據(jù)量巨大,如何識別和過濾爬蟲的訪問信息;如何有效收集和處理日志以外的訪問數(shù)據(jù);如何有效標(biāo)識用戶、設(shè)置用戶會話時間等。

5) 安全與非法訪問檢測。如何評價Web數(shù)據(jù)信息本身的可靠和安全性;如何對Web內(nèi)容、郵件、各種日志和用戶訪問行為的分析,識別出威脅、欺詐、入侵、無用的數(shù)據(jù)和異常行為,從而構(gòu)建安全的網(wǎng)絡(luò)環(huán)境。

6) 個性化與安全隱患。如何跟蹤、學(xué)習(xí)和表達(dá)多變的用戶興趣及行為模式,在個性化服務(wù)中過濾信息,實(shí)現(xiàn)商業(yè)應(yīng)用,在提醒個性化服務(wù)時不侵犯用戶隱私等都是亟待決的問題。

7) 基于Web的模式分析技術(shù)和工具。如何將Web挖掘的結(jié)果在瀏覽器中可視化地表達(dá),包括統(tǒng)計(jì)、關(guān)聯(lián)、聚類、分類等工具開發(fā)等。

8) Web挖掘的算法改進(jìn)與質(zhì)量評估。由于Web數(shù)據(jù)本身的特點(diǎn),使得Web挖掘不能照搬數(shù)據(jù)挖掘的理論和技術(shù),而需要對現(xiàn)有的算法等方面都進(jìn)行改進(jìn)。Web挖掘算法和挖掘系統(tǒng)的性能通常需要大量用戶的反饋,實(shí)際運(yùn)行測試,因而缺乏有效的評價模式。

9) Web挖掘在社會領(lǐng)域的應(yīng)用。Web已經(jīng)是人類社會活動的一面鏡子,如何在Web中發(fā)現(xiàn)社會現(xiàn)象、問題和熱點(diǎn)的規(guī)律,為社會學(xué)家、經(jīng)濟(jì)學(xué)家、教育學(xué)者提供有價值的知識。

此外,分布式Web挖掘、語義Web挖掘、無線網(wǎng)絡(luò)下的Web挖掘、Web2.0時代的Web挖掘、多語言環(huán)境下的Web挖掘等是值得研究的方向。同時,Web挖掘技術(shù)應(yīng)用于具體領(lǐng)域的研究將持續(xù)受到關(guān)注,例如,銀行證券、企業(yè)ERP、醫(yī)療衛(wèi)生、農(nóng)業(yè)、電子商務(wù)、網(wǎng)絡(luò)教學(xué)、BLOG等。

8結(jié)束語

Web挖掘技術(shù)是一個新興的研究領(lǐng)域,對它的研究和應(yīng)用正在成為一個熱點(diǎn)。伴隨著Internet的快速發(fā)展,Web挖掘技術(shù)的研究和發(fā)展將會迎來更好的契機(jī)。

參考文獻(xiàn):

[1]EtzioniO.The World Wide Web:Quagmire or goldmine[J]. Communication of the ACM, 1996, 39(11).

[2]王玉珍.Web數(shù)據(jù)挖掘的分析與探索[J].計(jì)算機(jī)發(fā)展與應(yīng)用,2003;(4).

[3]張藝雪.Web上的數(shù)據(jù)挖掘及應(yīng)用[J].信息科技,2007;(3)115-116.

[4]Wang K , Zhou S, Liew S C. Building hierarchical classifiers using class proximity [C]. In: proc of VLDB’97, Edinburgh, UK, 1999:363-374.

第5篇:數(shù)據(jù)挖掘技術(shù)范文

【關(guān)鍵詞】數(shù)據(jù)倉庫 數(shù)據(jù)挖掘 技術(shù) 應(yīng)用

信息時代背景下,傳統(tǒng)數(shù)據(jù)庫主要是面向事務(wù)并存儲在線交易的數(shù)據(jù)信息,但是無法為人們找到信息中隱藏的重要內(nèi)容。因此社會發(fā)展新形勢下,數(shù)據(jù)倉庫與挖掘技術(shù)應(yīng)運(yùn)而生,并成為企業(yè)現(xiàn)代化發(fā)展的重要應(yīng)用技術(shù),不僅能夠提高數(shù)據(jù)信息管理能力,還能夠促進(jìn)企業(yè)發(fā)展。因此加強(qiáng)對該課題的研究具有積極意義。

1 數(shù)據(jù)倉庫及數(shù)據(jù)挖掘技術(shù)概念

所謂數(shù)據(jù)倉庫技術(shù)設(shè)計(jì)靈感來自于傳統(tǒng)數(shù)據(jù)庫技術(shù),其主要是在計(jì)算機(jī)中實(shí)現(xiàn)數(shù)據(jù)存儲的一種技術(shù)。但是相比較傳統(tǒng)數(shù)據(jù)庫,二者存在本質(zhì)上的差別。數(shù)據(jù)倉庫的出現(xiàn)并未取代傳統(tǒng)數(shù)據(jù)庫,二者共存在信息時代,且發(fā)揮自身獨(dú)特的優(yōu)勢。數(shù)據(jù)庫主要存儲在線交易數(shù)據(jù),且盡量避免冗余,通常采取符合范式規(guī)則設(shè)計(jì);而數(shù)據(jù)倉庫在設(shè)計(jì)過程中有意引入冗余,采取反范式方式實(shí)現(xiàn)設(shè)計(jì)目標(biāo)。

而數(shù)據(jù)挖掘技術(shù)是在數(shù)據(jù)集合基礎(chǔ)之上,從中抽取隱藏在數(shù)據(jù)當(dāng)中的有用信息的非平凡過程。這些信息表現(xiàn)形式呈現(xiàn)多樣化,如概念、規(guī)則等。它在具體應(yīng)用過程中,不僅能夠幫助決策者分析歷史與當(dāng)前數(shù)據(jù)信息,還具有預(yù)見作用。就本質(zhì)上來看,數(shù)據(jù)挖掘過程也是知識發(fā)現(xiàn)的過程。數(shù)據(jù)挖掘技術(shù)是多個學(xué)科綜合的結(jié)果,對此其融合了多項(xiàng)技術(shù)功能,如聚類、分類及預(yù)測等,且這些功能并非獨(dú)立存在,而是存在相互依存關(guān)系。

2 數(shù)據(jù)倉庫與挖掘技術(shù)的應(yīng)用

2.1 數(shù)據(jù)倉庫技術(shù)的應(yīng)用

作為信息提供平臺,其從業(yè)務(wù)處理系統(tǒng)中獲得數(shù)據(jù),并以星型與雪花模型實(shí)現(xiàn)對數(shù)據(jù)的有效組織。一般情況下,它具體應(yīng)用主要表現(xiàn)在四個方面:

2.1.1 抽取數(shù)據(jù)信息

數(shù)據(jù)倉庫具有獨(dú)立性,在應(yīng)用中需要從事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源等介質(zhì)當(dāng)中獲取數(shù)據(jù),并設(shè)置定時抽取,但需要合理控制操作時間、順序等,以提高數(shù)據(jù)信息有效性。

2.1.2 存儲和管理數(shù)據(jù)

作為數(shù)據(jù)倉庫的關(guān)鍵,數(shù)據(jù)存儲及管理模式直接決定其自身特性。因此該方面工作需要從技術(shù)特點(diǎn)入手,并積極解決對各項(xiàng)業(yè)務(wù)并行處理、查詢優(yōu)化等問題。

2.1.3 表現(xiàn)數(shù)據(jù)

數(shù)據(jù)表現(xiàn)作為數(shù)據(jù)倉庫的開端,集中在多位分析、數(shù)理統(tǒng)計(jì)等多個方面。其中多維分析是數(shù)據(jù)倉庫的核心,也是具體表現(xiàn)形式,而通過數(shù)據(jù)統(tǒng)計(jì)能夠幫助企業(yè)抓住機(jī)遇,實(shí)現(xiàn)經(jīng)濟(jì)效益最大化目標(biāo)。

2.1.4 技術(shù)咨詢

數(shù)據(jù)倉庫的出現(xiàn)及應(yīng)用并不簡單,其是一個系統(tǒng)性的解決方案和工程。實(shí)施數(shù)據(jù)倉庫時,技術(shù)咨詢服務(wù)十分重要,是一個必不可少的部分,對此在應(yīng)用中,應(yīng)加強(qiáng)對技術(shù)咨詢的關(guān)注力度。

2.2 數(shù)據(jù)挖掘技術(shù)在各領(lǐng)域中的應(yīng)用

不同于傳統(tǒng)時代,社會各領(lǐng)域在參與激烈的市場競爭過程中,充分認(rèn)識到數(shù)據(jù)對自身長遠(yuǎn)發(fā)展戰(zhàn)略實(shí)現(xiàn)的重要性。因此數(shù)據(jù)挖掘技術(shù)在當(dāng)前各行業(yè)發(fā)展中隨處可見。

2.2.1 應(yīng)用于醫(yī)學(xué)方面,提高診斷準(zhǔn)確率

眾所周知,人體奧秘?zé)o窮無盡,遺傳密碼、人類疾病等方面都蘊(yùn)含了海量數(shù)據(jù)信息。而傳統(tǒng)研究模式,單純依靠人工無法真正探索真正的秘密。而利用數(shù)據(jù)挖掘技術(shù)能夠有效解決這些問題,給醫(yī)療工作者帶來了極大的便利。同時,醫(yī)療體制改革背景下,醫(yī)院內(nèi)部醫(yī)療器具的管理、病人檔案資料整理等方面同樣涉及數(shù)據(jù),引進(jìn)數(shù)據(jù)挖掘技術(shù),能夠深入分析疾病之間的聯(lián)系及規(guī)律,幫助醫(yī)生診斷和治療,以達(dá)到診斷事半功倍的目標(biāo),且為保障人類健康等提供強(qiáng)大的技術(shù)支持。

2.2.2 應(yīng)用于金融方面,提高工作有效性

銀行及金融機(jī)構(gòu)中涉及儲蓄、信貸等大量數(shù)據(jù)信息。利用數(shù)據(jù)挖掘技術(shù)管理和應(yīng)用這些數(shù)據(jù)信息,能夠幫助金融機(jī)構(gòu)更好地適應(yīng)互聯(lián)網(wǎng)金融時代的發(fā)展趨勢。提高金融數(shù)據(jù)完整、可靠性,為金融決策提供科學(xué)依據(jù)。金融市場變幻莫測,要想在競爭中提升自身核心競爭力,需要對數(shù)據(jù)進(jìn)行多維分析和研究。在應(yīng)用中,特別是針對偵破洗黑錢等犯罪活動,可以采取孤立點(diǎn)分析等工具進(jìn)行分析,為相關(guān)工作有序開展奠定堅(jiān)實(shí)的基礎(chǔ)。

2.2.3 應(yīng)用于高校日常管理方面,實(shí)現(xiàn)高校信息化建設(shè)

當(dāng)前,針對高校中存在的貧困大學(xué)生而言,受到自身家庭等因素的影響,他們學(xué)業(yè)與生活存在很多困難。而高校給予了貧困生很多幫助。對此將數(shù)據(jù)挖掘技術(shù)引入到貧困生管理工作中,能夠?qū)⑿?nèi)貧困生群體作為主要研究對象,采集和存儲在校生生活、學(xué)習(xí)等多方面信息,然后構(gòu)建貧困生認(rèn)定模型,并將此作為基礎(chǔ)進(jìn)行查詢和統(tǒng)計(jì),為貧困生針對管理工作提供技術(shù)支持,從而提高高校學(xué)生管理實(shí)務(wù)效率,促進(jìn)高校和諧、有序發(fā)展。

2.2.4 應(yīng)用于電信方面,實(shí)現(xiàn)經(jīng)濟(jì)效益最大化目標(biāo)

現(xiàn)代社會發(fā)展趨勢下,電信產(chǎn)業(yè)已經(jīng)不僅限于傳統(tǒng)意義上的電話服務(wù)提供商、而將語言、電話等有機(jī)整合成為一項(xiàng)數(shù)據(jù)通信綜合業(yè)務(wù)。電信網(wǎng)、因特網(wǎng)等網(wǎng)絡(luò)融合已經(jīng)成為必然趨勢,并將成為未來發(fā)展的主要方向。在大融合影響下,數(shù)據(jù)挖掘技術(shù)應(yīng)用能夠幫助運(yùn)營商業(yè)務(wù)運(yùn)作,如利用多維分析電信數(shù)據(jù);或者采取聚類等方法查找異常狀態(tài)及盜用模式等,不斷提高數(shù)據(jù)資源利用率,更為深入地了解用戶行為,促進(jìn)電信業(yè)務(wù)的推廣及應(yīng)用,從而實(shí)現(xiàn)經(jīng)濟(jì)效益最大化目標(biāo)。

3 結(jié)論

根據(jù)上文所述,數(shù)據(jù)倉庫與挖掘技術(shù)作為一項(xiàng)新型技術(shù),在促進(jìn)相關(guān)產(chǎn)業(yè)發(fā)展等方面占據(jù)十分重要的位置。因此在具體應(yīng)用中,除了要積極明確數(shù)據(jù)倉庫與傳統(tǒng)數(shù)據(jù)庫之間的差別之外,還應(yīng)切實(shí)結(jié)合實(shí)際情況,積極引入數(shù)據(jù)挖掘技術(shù),充分挖掘和探索數(shù)據(jù)信息中的重要內(nèi)容,為制定科學(xué)決策提供支持,同時還應(yīng)加大對技術(shù)的深度研究,不斷提高技術(shù)應(yīng)用水平,從而為用戶帶來更大的利益。

參考文獻(xiàn)

[1]陳宏.淺談數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)及應(yīng)用[J].科技廣場,2011,09:90-93.

[2]崔愿星.淺析數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的應(yīng)用[J].內(nèi)江科技,2014,01:141-142.

[3]王慧.數(shù)據(jù)倉庫和數(shù)據(jù)挖掘在醫(yī)院信息系統(tǒng)中的應(yīng)用[J].電腦開發(fā)與應(yīng)用,2014,01:76-78.

[4]靳鑫.淺析數(shù)據(jù)倉庫和數(shù)據(jù)挖掘[J].中國新通信,2012,11:29-31.

第6篇:數(shù)據(jù)挖掘技術(shù)范文

數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測未來可能發(fā)生的行為。數(shù)據(jù)挖掘的過程也叫知識發(fā)現(xiàn)的過程。

二、數(shù)據(jù)挖掘的方法

1.統(tǒng)計(jì)方法。傳統(tǒng)的統(tǒng)計(jì)學(xué)為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類問題,回歸分析用來找到一個輸入變量和輸出變量關(guān)系的最佳模型,在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關(guān)系的線性回歸,還有用來為某些事件發(fā)生的概率建模為預(yù)測變量集的對數(shù)回歸、統(tǒng)計(jì)方法中的方差分析一般用于分析估計(jì)回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應(yīng)用中有力的工具之一。

2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡單,實(shí)用的分析規(guī)則,它描述了一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關(guān)系,原因之一是它不受只選擇一個因變量的限制。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過關(guān)聯(lián)得到的屬性之間的關(guān)系都有實(shí)際應(yīng)用價值,要對這些規(guī)則要進(jìn)行有效的評價,篩選有意義的關(guān)聯(lián)規(guī)則。

3.聚類分析。聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃分成幾個組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內(nèi)部關(guān)系,從而對樣本結(jié)構(gòu)做出合理的評價,此外,聚類分析還用于對孤立點(diǎn)的檢測。并非由聚類分析算法得到的類對決策都有效,在運(yùn)用某一個算法之前,一般要先對數(shù)據(jù)的聚類趨勢進(jìn)行檢驗(yàn)。

4.決策樹方法。決策樹學(xué)習(xí)是一種通過逼近離散值目標(biāo)函數(shù)的方法,通過把實(shí)例從根結(jié)點(diǎn)排列到某個葉子結(jié)點(diǎn)來分類實(shí)例,葉子結(jié)點(diǎn)即為實(shí)例所屬的分類。樹上的每個結(jié)點(diǎn)說明了對實(shí)例的某個屬性的測試,該結(jié)點(diǎn)的每一個后繼分支對應(yīng)于該屬性的一個可能值,分類實(shí)例的方法是從這棵樹的根結(jié)點(diǎn)開始,測試這個結(jié)點(diǎn)指定的屬性,然后按照給定實(shí)例的該屬性值對應(yīng)的樹枝向下移動。決策樹方法是要應(yīng)用于數(shù)據(jù)挖掘的分類方面。

5.神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)建立在自學(xué)習(xí)的數(shù)學(xué)模型基礎(chǔ)之上,能夠?qū)Υ罅繌?fù)雜的數(shù)據(jù)進(jìn)行分析,并可以完成對人腦或其他計(jì)算機(jī)來說極為復(fù)雜的模式抽取及趨勢分析,神經(jīng)網(wǎng)絡(luò)既可以表現(xiàn)為有指導(dǎo)的學(xué)習(xí)也可以是無指導(dǎo)聚類,無論哪種,輸入到神經(jīng)網(wǎng)絡(luò)中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡(luò)模擬人腦神經(jīng)元結(jié)構(gòu),建立三大類多種神經(jīng)元網(wǎng)絡(luò),具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學(xué)習(xí)、自組織和自適應(yīng)能力的種種優(yōu)點(diǎn)。

6.遺傳算法。遺傳算法是一種受生物進(jìn)化啟發(fā)的學(xué)習(xí)方法,通過變異和重組當(dāng)前己知的最好假設(shè)來生成后續(xù)的假設(shè)。每一步,通過使用目前適應(yīng)性最高的假設(shè)的后代替代群體的某個部分,來更新當(dāng)前群體的一組假設(shè),來實(shí)現(xiàn)各個個體的適應(yīng)性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強(qiáng)的個體,產(chǎn)生新種群(后代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進(jìn)行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進(jìn)行變異的過程。在數(shù)據(jù)挖掘中,可以被用作評估其他算法的適合度。

7.粗糙集。粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗(yàn)知識的情況下,只以考察數(shù)據(jù)的分類能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理問題。粗糙集用于從數(shù)據(jù)庫中發(fā)現(xiàn)分類規(guī)則的基本思想是將數(shù)據(jù)庫中的屬性分為條件屬性和結(jié)論屬性,對數(shù)據(jù)庫中的元組根據(jù)各個屬性不同的屬性值分成相應(yīng)的子集,然后對條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補(bǔ)集元素的元素。粗糙集理論可以應(yīng)用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。

8.支持向量機(jī)。支持向量機(jī)(SVM)是在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出來的一種新的機(jī)器學(xué)習(xí)方法。它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則上的,盡量提高學(xué)習(xí)機(jī)的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學(xué)習(xí)問題,現(xiàn)已成為訓(xùn)練多層感知器、RBF神經(jīng)網(wǎng)絡(luò)和多項(xiàng)式神經(jīng)元網(wǎng)絡(luò)的替代性方法。另外,支持向量機(jī)算法是一個凸優(yōu)化問題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點(diǎn)都是包括神經(jīng)元網(wǎng)絡(luò)在內(nèi)的其他算法所不能及的。支持向量機(jī)可以應(yīng)用于數(shù)據(jù)挖掘的分類、回歸、對未知事物的探索等方面。

事實(shí)上,任何一種挖掘工具往往是根據(jù)具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。

三、結(jié)束語

目前,數(shù)據(jù)挖掘技術(shù)雖然得到了一定程度的應(yīng)用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對數(shù)據(jù)挖掘技術(shù)的深人研究,數(shù)據(jù)挖掘技術(shù)必將在更加廣泛的領(lǐng)域得到應(yīng)用,并取得更加顯著的效果。

參考文獻(xiàn):

蘇新寧楊建林鄧三鴻等:數(shù)據(jù)挖掘理論與技術(shù)[M].北京:科學(xué)技術(shù)文獻(xiàn)出版社,2003

第7篇:數(shù)據(jù)挖掘技術(shù)范文

[關(guān)鍵詞] 數(shù)據(jù)挖掘 商業(yè)決策 數(shù)據(jù)分析

一、應(yīng)用數(shù)據(jù)挖掘技術(shù)支撐商業(yè)管理理念的實(shí)施

商業(yè)管理理論及理念的研究一直沒有停歇,那面是“二八原則”,這面又是“藍(lán)平長二”,無論是什么,其宗旨都是為使企業(yè)能在激烈的商業(yè)競爭中審時度勢,迅速出擊,知己知彼,百戰(zhàn)不殆。任何好的商業(yè)決策都必須及時、準(zhǔn)確,有真實(shí)可靠的事實(shí)與數(shù)據(jù)為依據(jù)。商業(yè)組織如果感覺不靈敏,很容易陷入“夜半臨深池”的危險(xiǎn)境地卻不自知,有先進(jìn)的管理理念也無濟(jì)于事。面對日益復(fù)雜的競爭環(huán)境,數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。

數(shù)據(jù)挖掘技術(shù)基于人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等技術(shù),可高度自動化地從深層次上分析商業(yè)組織在運(yùn)營過程中積累的海量業(yè)務(wù)數(shù)據(jù),抽取重要信息,使商業(yè)組織大大提高認(rèn)知其組織內(nèi)外環(huán)境的能力,靈活應(yīng)對突發(fā)事件,迅速制定合理決策,使先進(jìn)的商業(yè)管理理念落到實(shí)處。

二、數(shù)據(jù)挖掘功能及其所能解決的典型商業(yè)問題

1.關(guān)聯(lián)分析

關(guān)聯(lián)分析是從大量的數(shù)據(jù)中發(fā)現(xiàn)項(xiàng)集之間相關(guān)關(guān)系或因果結(jié)構(gòu)的數(shù)據(jù)分析方法。通過對大量銷售數(shù)據(jù)的分析,可以發(fā)現(xiàn)兩種或多種商品之間存在的關(guān)聯(lián)關(guān)系,據(jù)此可改變商品的擺放位置,制定捆綁銷售等策略。亞馬遜及當(dāng)當(dāng)?shù)荣徫锞W(wǎng)站在用戶選擇商品后及時給出的其他商品的推介就是利用關(guān)聯(lián)分析得到的。

2.分類與預(yù)測

分類與預(yù)測是通過對當(dāng)前數(shù)據(jù)集合的描述以識別未知數(shù)據(jù)的歸屬或預(yù)測未來數(shù)據(jù)的發(fā)展趨勢。通過對大量銷售數(shù)據(jù)的分析,可以確定特定客戶的興趣、消費(fèi)習(xí)慣、消費(fèi)傾向和消費(fèi)需求,進(jìn)而推斷其下一步的消費(fèi)行為,據(jù)此進(jìn)行定向營銷和推送服務(wù),必將大大節(jié)省營銷成本,獲得良好的營銷收益。

3.聚類分析

聚類就是按照事物的某些屬性把事物聚集成類。聚類之前類的數(shù)量及類的特征都是未知的。應(yīng)用聚類技術(shù)能發(fā)現(xiàn)不同客戶群并刻畫出客戶群的特征,據(jù)此制定營銷策略和客戶服務(wù)策略,如超市根據(jù)客戶聚集地中心點(diǎn)制定班車路線,制定商品宣傳策略等。

4.孤立點(diǎn)分析

數(shù)據(jù)庫中包含的與其他數(shù)據(jù)行為或模型不一致的數(shù)據(jù)對象稱為孤立點(diǎn),在數(shù)據(jù)庫中查找識別孤立點(diǎn)的技術(shù)即為孤立點(diǎn)分析。在銀行、電信等行業(yè)的業(yè)務(wù)數(shù)據(jù)中發(fā)現(xiàn)的孤立點(diǎn)可能預(yù)示著欺詐行為,盡早識別,可以為企業(yè)減少不必要的經(jīng)濟(jì)損失。另外可用于網(wǎng)絡(luò)的入侵檢測,生態(tài)系統(tǒng)的失調(diào)檢測,特殊病種檢測等。

5.時序演變分析

時序演變分析是建立事件或?qū)ο笮袨殡S時間變化的規(guī)律或趨勢的模型。據(jù)此方法利用股市交易信息可分析股市的波動趨勢,利用商業(yè)交易信息可分析出產(chǎn)品的銷量變化趨勢、目標(biāo)市場發(fā)展趨勢等,利用天氣狀況數(shù)據(jù)可分析天氣的變化趨勢等。

6.文本信息抽取

文本信息抽取是從非結(jié)構(gòu)化的文本中提取重要信息的過程。利用該技術(shù)可獲取競爭情報(bào),可從新聞等文本中動態(tài)抽取日期、地點(diǎn)和人物等信息,并借助關(guān)聯(lián)分析方法進(jìn)一步識別出產(chǎn)品、企業(yè)、人、事件和地點(diǎn)之間的關(guān)系,使企業(yè)對競爭環(huán)境的感知更敏銳。

7.Web挖掘

Web挖掘是指從網(wǎng)絡(luò)環(huán)境中提取有價值信息的過程。如搜索引擎的應(yīng)用;如分析網(wǎng)站的參觀者和購買者的高頻率瀏覽路徑,以確定用戶對某產(chǎn)品的需求,發(fā)現(xiàn)用戶的個人喜好,發(fā)現(xiàn)用戶的去留傾向……據(jù)此可改變網(wǎng)頁的設(shè)置,為用戶提供個性化服務(wù),改變受歡迎產(chǎn)品的經(jīng)營和宣傳策略等。

三、數(shù)據(jù)挖掘流程及所面對的問題

數(shù)據(jù)挖掘流程可描述為“數(shù)據(jù)選擇數(shù)據(jù)預(yù)處理數(shù)據(jù)挖掘模式評估知識表示”。

數(shù)據(jù)挖掘首先根據(jù)分析目標(biāo)從數(shù)據(jù)源中選取與業(yè)務(wù)相關(guān)的數(shù)據(jù)。數(shù)據(jù)源是存儲業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)庫或數(shù)據(jù)倉庫。選取的數(shù)據(jù)通常會存在不完整、含噪聲(錯誤數(shù)據(jù))、不一致等問題,需要預(yù)處理數(shù)據(jù)使數(shù)據(jù)適合于挖掘。在這一過程中元數(shù)據(jù)起了非常重要的作用。

數(shù)據(jù)挖掘之前必須選定數(shù)據(jù)挖掘模型,即先做出某種假定,關(guān)聯(lián)分析、聚類分析及分類與預(yù)測為不同的挖掘模型。分析商品銷售數(shù)據(jù)時假定其中某些商品具有相關(guān)性,則選擇關(guān)聯(lián)分析模型,若挖掘的結(jié)果找到了產(chǎn)品A的購買帶來產(chǎn)品B的購買則是具體的模式。最終需要評測這種模式是不是真實(shí)有效且對商業(yè)決策有指導(dǎo)意義(模型評估,利用興趣度度量加人的識別),保留有意義的模型,并用一種用戶容易理解的方式表達(dá)出來(知識表示)。

數(shù)據(jù)的選擇和預(yù)處理會直接影響數(shù)據(jù)挖掘的結(jié)果。另外任何一種挖掘模型和挖掘算法都不是萬能的,不同的商業(yè)問題需要用不同的方法去解決。對于特定的商業(yè)問題和特定數(shù)據(jù)可能有多種算法,需要評估以選取最佳算法。

四、總結(jié)

數(shù)據(jù)挖掘作為正在興起并得到廣泛應(yīng)用的信息技術(shù)具有巨大的商業(yè)價值,特別是在銀行、電信、保險(xiǎn)、交通、網(wǎng)上商城、超市等商業(yè)領(lǐng)域都有很好的表現(xiàn)。數(shù)據(jù)挖掘技術(shù)可以組織并深層次分析企業(yè)積累的海量業(yè)務(wù)數(shù)據(jù),預(yù)測客戶行為,預(yù)測產(chǎn)品狀況,預(yù)測市場走勢,幫助決策者正確判斷即將出現(xiàn)的機(jī)會,調(diào)整策略,減少風(fēng)險(xiǎn)。因此利用數(shù)據(jù)挖掘技術(shù)必將大大提高商業(yè)組織利用信息的能力,使得信息更好地為決策服務(wù)。

但數(shù)據(jù)挖掘不是萬能的,在實(shí)際應(yīng)用中還要受到許多限制。有足夠的合適的數(shù)據(jù),選擇恰當(dāng)?shù)哪P秃退惴ǎ袥Q策者的支持等都是有效應(yīng)用數(shù)據(jù)挖掘技術(shù)的必要條件。

參考文獻(xiàn):

[1]李佩鈺等:藍(lán)平長二 商業(yè)理論洛陽紙貴,biz.省略

[2]欒世武:數(shù)據(jù)挖掘給企業(yè)應(yīng)用帶來什么,省略ki.省略

第8篇:數(shù)據(jù)挖掘技術(shù)范文

[關(guān)鍵詞]計(jì)算機(jī);數(shù)據(jù);挖掘技術(shù)

中圖分類號:TP31 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-914X(2015)33-0244-01

計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)的產(chǎn)生是社會的一種進(jìn)步,了解計(jì)算機(jī)數(shù)據(jù)挖掘?qū)ξ覀儊碚f非常的重要,計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)對于龐大的數(shù)據(jù)有著整理分析的作用,這不僅僅對于企業(yè)的工作產(chǎn)生了巨大的作用,還對日常工作 生活等也提供重要的幫助。

1 計(jì)算機(jī)數(shù)據(jù)挖掘的概念及對象

1.1 計(jì)算機(jī)數(shù)據(jù)挖掘的概念

計(jì)算機(jī)數(shù)據(jù)挖掘是在社會的發(fā)展進(jìn)入了網(wǎng)絡(luò)信息時代之后產(chǎn)生的網(wǎng)絡(luò)衍生產(chǎn)品,計(jì)算機(jī)數(shù)據(jù)挖掘主要是通過一定的手段對企業(yè)內(nèi)部進(jìn)行數(shù)據(jù)挖掘,然后通過一定的分析,對那些通過數(shù)據(jù)挖掘得到的數(shù)據(jù)進(jìn)行整理,進(jìn)而分析企業(yè)的市場以及企業(yè)的發(fā)展等等問題。計(jì)算機(jī)數(shù)據(jù)挖掘?qū)μ幱诰W(wǎng)絡(luò)信息時代之中的企業(yè)來說非常重要,它是處于網(wǎng)絡(luò)信息時代之中的企業(yè)長遠(yuǎn)發(fā)展的助推器,作為處于信息時代的企業(yè)要抓住這個促進(jìn)自己發(fā)展的大好契機(jī)。

1.2 計(jì)算機(jī)數(shù)據(jù)挖掘的對象

計(jì)算機(jī)數(shù)據(jù)挖掘具有一定的針對性,計(jì)算機(jī)數(shù)據(jù)挖掘的對象(目標(biāo)數(shù)據(jù))并不是所有的數(shù)據(jù),它是具有選擇性的,計(jì)算機(jī)數(shù)據(jù)挖掘的對象主要是指企業(yè)中能夠揭示一些未發(fā)現(xiàn)的隱藏信息和企業(yè)中比較有意義和研究價值的數(shù)據(jù),明確這一點(diǎn)非常的重要,計(jì)算機(jī)數(shù)據(jù)挖掘的對象的選擇性是影響計(jì)算機(jī)數(shù)據(jù)挖掘效率的主要因素,對于一個沒有充分認(rèn)識計(jì)算機(jī)數(shù)據(jù)挖掘?qū)ο蟮倪x擇性的企業(yè)來說,它的計(jì)算機(jī)數(shù)據(jù)挖掘的效率會比成熟的計(jì)算機(jī)數(shù)據(jù)挖掘的企業(yè)或者是充分認(rèn)識到計(jì)算機(jī)數(shù)據(jù)挖掘的對象的選擇性的企業(yè)要低得多。同時,明確目標(biāo)數(shù)據(jù)的類型也非常重要,它直接決定了要使用的數(shù)據(jù)挖掘技術(shù)和方法,大體上數(shù)據(jù)類型分為三類:記錄數(shù)據(jù),給予圖形的數(shù)據(jù)和有序的數(shù)據(jù)。

2 計(jì)算機(jī)數(shù)據(jù)挖掘的任務(wù)及過程

2.1 計(jì)算機(jī)數(shù)據(jù)挖掘的任務(wù)

計(jì)算機(jī)數(shù)據(jù)挖掘主要是對海量的數(shù)據(jù)進(jìn)行挖掘和分析,必須經(jīng)過計(jì)算機(jī)數(shù)據(jù)準(zhǔn)備和計(jì)算機(jī)數(shù)據(jù)規(guī)律尋找的固定過程,在計(jì)算機(jī)數(shù)據(jù)挖掘的過程中,計(jì)算機(jī)數(shù)據(jù)準(zhǔn)備和計(jì)算機(jī)數(shù)據(jù)規(guī)律的尋找一個都不能少,我們要做好計(jì)算機(jī)數(shù)據(jù)挖掘的每一步,計(jì)算機(jī)數(shù)據(jù)挖掘的任務(wù)主要有對計(jì)算機(jī)數(shù)據(jù)挖掘的結(jié)果與企業(yè)的市場現(xiàn)狀進(jìn)行一個具體的聯(lián)系、對計(jì)算機(jī)數(shù)據(jù)挖掘的結(jié)果進(jìn)行一定的分類,對計(jì)算機(jī)數(shù)據(jù)挖掘的結(jié)果進(jìn)行一定的變異分析。在處理計(jì)算機(jī)數(shù)據(jù)挖掘的任務(wù)時,我們要完成計(jì)算機(jī)數(shù)據(jù)挖掘的每一個任務(wù),首先,對計(jì)算機(jī)數(shù)據(jù)挖掘的結(jié)果與企業(yè)的市場現(xiàn)狀進(jìn)行一個具體的聯(lián)系是計(jì)算機(jī)數(shù)據(jù)挖掘的根本任務(wù),而對計(jì)算機(jī)數(shù)據(jù)挖掘的結(jié)果進(jìn)行一定的分類是計(jì)算機(jī)數(shù)據(jù)挖掘的主要任務(wù),最后對計(jì)算機(jī)數(shù)據(jù)挖掘的結(jié)果進(jìn)行一定的變異分析是計(jì)算機(jī)數(shù)據(jù)挖掘的必要任務(wù)。

2.2 計(jì)算機(jī)數(shù)據(jù)挖掘的過程

計(jì)算機(jī)數(shù)據(jù)挖掘的過程具有一定的復(fù)雜性,計(jì)算機(jī)數(shù)據(jù)挖掘的基本過程:第一,對計(jì)算機(jī)數(shù)據(jù)的來源進(jìn)行一定的分析。這一步非常的重要,一個完整的計(jì)算機(jī)數(shù)據(jù)挖掘的過程必須以這一步為基礎(chǔ),只有對計(jì)算機(jī)數(shù)據(jù)的來源進(jìn)行一定的分析,我們才能夠進(jìn)行下一步的操作;第二,從計(jì)算機(jī)數(shù)據(jù)的來源的分析結(jié)果中獲取一定的信息,然后我們要對計(jì)算機(jī)數(shù)據(jù)的來源的分析結(jié)果進(jìn)行研究,在研究的過程中,我們要查閱相關(guān)的專業(yè)知識和專業(yè)的研究數(shù)據(jù)挖掘的技術(shù),只有具備了相關(guān)的專業(yè)知識和專業(yè)的研究數(shù)據(jù)挖掘的技術(shù),我們才能夠更好地對計(jì)算機(jī)數(shù)據(jù)進(jìn)行挖掘;第三,對計(jì)算機(jī)數(shù)據(jù)挖掘的信息進(jìn)行一定的整合,檢查出不太合理的相關(guān)信息;第四,數(shù)據(jù)挖掘的實(shí)施。根據(jù)挖掘具體任務(wù)選擇相應(yīng)的數(shù)據(jù)挖掘?qū)嵤┧惴ǎ坏谖澹Y(jié)果評估與整理。在完成實(shí)施階段后,要對數(shù)據(jù)挖掘結(jié)果進(jìn)行評估和整理,完成整個數(shù)據(jù)挖掘的過程。

3 計(jì)算機(jī)數(shù)據(jù)挖掘的技術(shù)應(yīng)用挑戰(zhàn)

計(jì)算機(jī)數(shù)據(jù)挖掘最大的應(yīng)用領(lǐng)域就是商業(yè)領(lǐng)域,它能夠?yàn)樯虡I(yè)機(jī)構(gòu)提供欺詐偵查和客戶市場分類等數(shù)據(jù)。在這個高速發(fā)展的信息時代,網(wǎng)絡(luò)是商業(yè)發(fā)展的主要推動因素,我們要使計(jì)算機(jī)數(shù)據(jù)挖掘在商業(yè)上的應(yīng)用領(lǐng)域更廣。

3.1 在金融企業(yè)的應(yīng)用及重要作用

金融企業(yè)是具有一定風(fēng)險(xiǎn)的企業(yè),其重要的就是要對投資的風(fēng)險(xiǎn)做出評估,這樣,才能在我們金融企業(yè)進(jìn)行投資時把風(fēng)險(xiǎn)降到最低。這時,金融企業(yè)就利用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)對我們的投資項(xiàng)目進(jìn)行評估預(yù)測。如:在企業(yè)收購股票時,就要根據(jù)這只股票歷史走向的數(shù)據(jù)做,從而做出評估,在做出較為精準(zhǔn)的判斷和選擇。在金融業(yè)涉及到借貸款的問題時,企業(yè)要根據(jù)貸款對象日常的誠信做出調(diào)查,然后再進(jìn)行數(shù)據(jù)的挖掘統(tǒng)計(jì),從而判斷出貸款對象是屬于低風(fēng)險(xiǎn)還是高風(fēng)險(xiǎn)。由此可見,計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)對金融企業(yè)的投資、貸款有著重要的作用。

3.2 電子商務(wù)企業(yè)的應(yīng)用

電子商務(wù)企業(yè)最注重的便是網(wǎng)站的瀏覽量和點(diǎn)擊率及與客戶的成交單子的數(shù)量。企業(yè)如何提高網(wǎng)站的瀏覽量和點(diǎn)擊率和用戶的交易數(shù)量就成了問題的核心。電子商務(wù)企業(yè)可以根據(jù)用戶在瀏覽網(wǎng)頁時的收藏物品的情況、購物車的情況、成交記錄的情況進(jìn)行物品的推薦。這就需要應(yīng)用技術(shù)數(shù)據(jù)挖掘技術(shù)對用戶的一系列情況做出數(shù)據(jù)的整合。通過數(shù)據(jù)的分析推薦的商品,及時客戶最終沒有購買,也會增加該物品的瀏覽量,這也使得我們電子商務(wù)的瀏覽量得到提升,從而增加企業(yè)在該行業(yè)的競爭力。

3.3 企業(yè)競爭的應(yīng)用

社會經(jīng)濟(jì)在不斷的發(fā)展進(jìn)步,隨著而來的相同企業(yè)的數(shù)量也在不斷的增加,如何在眾多相同的企業(yè)里脫穎而出是所有企業(yè)思考的問題。一個企業(yè)除了要具有自己的特色之外,還要充分了解對手的情況,這時,就需要我們的企業(yè)利用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)對競爭企業(yè)進(jìn)行系統(tǒng)的分析調(diào)差,這樣,才能做到充分了解對手。吸取競爭對手的長處,在看到企業(yè)的短處時,也要使自己的企業(yè)避免相似的問題出現(xiàn)。所以,計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在企業(yè)相互競爭時起著不可忽視的重大作用。

3.4 計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)面臨的挑戰(zhàn)

數(shù)據(jù)挖掘技術(shù)面臨的最大挑戰(zhàn)就是隱私的保護(hù)和數(shù)據(jù)的安全性問題。當(dāng)數(shù)據(jù)在不同的抽象級別視角去考察的時候,數(shù)據(jù)挖掘?qū)﹄[私和數(shù)據(jù)安全就構(gòu)成了威脅。它威脅到保持?jǐn)?shù)據(jù)安全和防止干涉隱私的目標(biāo)的實(shí)現(xiàn)。

4 結(jié)語

社會的科技在不斷的發(fā)展進(jìn)步,而計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在我們的社會生活中的不同領(lǐng)域都發(fā)揮著其最大的作用。計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)將會在各個領(lǐng)域得到廣泛的應(yīng)用,并對人類的活動產(chǎn)生深遠(yuǎn)的影響。

參考文獻(xiàn)

第9篇:數(shù)據(jù)挖掘技術(shù)范文

一、海量數(shù)據(jù)挖掘關(guān)鍵技術(shù)隨時代而變化

所謂海量數(shù)據(jù)挖掘,是指應(yīng)用一定的算法,從海量的數(shù)據(jù)中發(fā)現(xiàn)有用的信息和知識。海量數(shù)據(jù)挖掘關(guān)鍵技術(shù)主要包括海量數(shù)據(jù)存儲、云計(jì)算、并行數(shù)據(jù)挖掘技術(shù)、面向數(shù)據(jù)挖掘的隱私保護(hù)技術(shù)和數(shù)據(jù)挖掘集成技術(shù)。

1.海量數(shù)據(jù)存儲

海量存儲系統(tǒng)的關(guān)鍵技術(shù)包括并行存儲體系架構(gòu)、高性能對象存儲技術(shù)、并行I/O訪問技術(shù)、海量存儲系統(tǒng)高可用技術(shù)、嵌入式64位存儲操作系統(tǒng)、數(shù)據(jù)保護(hù)與安全體系、綠色存儲等。

海量數(shù)據(jù)存儲系統(tǒng)為云計(jì)算、物聯(lián)網(wǎng)等新一代高新技術(shù)產(chǎn)業(yè)提供核心的存儲基礎(chǔ)設(shè)施;為我國的一系列重大工程如平安工程等起到了核心支撐和保障作用;海量存儲系統(tǒng)已經(jīng)使用到石油、氣象、金融、電信等國家重要行業(yè)與部門。發(fā)展具有自主知識產(chǎn)權(quán)、達(dá)到國際先進(jìn)水平的海量數(shù)據(jù)存儲系統(tǒng)不僅能夠填補(bǔ)國內(nèi)在高端數(shù)據(jù)存儲系統(tǒng)領(lǐng)域的空白,而且可以滿足國內(nèi)許多重大行業(yè)快速增長的海量數(shù)據(jù)存儲需要,并創(chuàng)造巨大的經(jīng)濟(jì)效益。

2.云計(jì)算

目前云計(jì)算的相關(guān)應(yīng)用主要有云物聯(lián)、云安全、云存儲。云存儲是在云計(jì)算(cloud computing)概念上延伸和發(fā)展出來的新概念,是指通過集群應(yīng)用、網(wǎng)格技術(shù)或分布式文件系統(tǒng)等功能,將網(wǎng)絡(luò)中大量各種不同類型的存儲設(shè)備通過應(yīng)用軟件集合起來協(xié)同工作,共同對外提供數(shù)據(jù)存儲和業(yè)務(wù)訪問功能的一個系統(tǒng)。

當(dāng)云計(jì)算系統(tǒng)運(yùn)算和處理的核心是大量數(shù)據(jù)的存儲和管理時,云計(jì)算系統(tǒng)中就需要配置大量的存儲設(shè)備,那么云計(jì)算系統(tǒng)就轉(zhuǎn)變成為一個云存儲系統(tǒng),所以云存儲是一個以數(shù)據(jù)存儲和管理為核心的云計(jì)算系統(tǒng)。

3.并行數(shù)據(jù)挖掘技術(shù)

高效率的數(shù)據(jù)挖掘是人們所期望的,但當(dāng)數(shù)據(jù)挖掘的對象是一個龐大的數(shù)據(jù)集或是許多廣泛分布的數(shù)據(jù)源時,效率就成為數(shù)據(jù)挖掘的瓶頸。隨著并行處理技術(shù)的快速發(fā)展,用并行處理的方法來提高數(shù)據(jù)挖掘效率的需求越來越大。

并行數(shù)據(jù)挖掘涉及到了一系列體系結(jié)構(gòu)和算法方面的技術(shù),如硬件平臺的選擇(共享內(nèi)存的或者分布式的)、并行的策略(任務(wù)并行、數(shù)據(jù)并行或者任務(wù)并行與數(shù)據(jù)并行結(jié)合)、負(fù)載平衡的策略(靜態(tài)負(fù)載平衡或者動態(tài)負(fù)載平衡)、數(shù)據(jù)劃分的方式(橫向的或者縱向的)等。處理并行數(shù)據(jù)挖掘的策略主要涉及三種算法:并行關(guān)聯(lián)規(guī)則挖掘算法、并行聚類算法和并行分類算法。

4.面向數(shù)據(jù)挖掘的隱私保護(hù)技術(shù)

數(shù)據(jù)挖掘在產(chǎn)生財(cái)富的同時也隨之出現(xiàn)了隱私泄露的問題。如何在防止隱私泄露的前提下進(jìn)行數(shù)據(jù)挖掘,是信息化時代各行業(yè)現(xiàn)實(shí)迫切的需求。

基于隱私保護(hù)的數(shù)據(jù)挖掘是指采用數(shù)據(jù)擾亂、數(shù)據(jù)重構(gòu)、密碼學(xué)等技術(shù)手段,能夠在保證足夠精度和準(zhǔn)確度的前提下,使數(shù)據(jù)挖掘者在不觸及實(shí)際隱私數(shù)據(jù)的同時,仍能進(jìn)行有效的挖掘工作。

受數(shù)據(jù)挖掘技術(shù)多樣性的影響,隱私保護(hù)的數(shù)據(jù)挖掘方法呈現(xiàn)多樣性。基于隱私保護(hù)的數(shù)據(jù)挖掘技術(shù)可從4個層面進(jìn)行分類:從數(shù)據(jù)的分布情況,可以分為原始數(shù)據(jù)集中式和分布式兩大類隱私保護(hù)技術(shù);從原始數(shù)據(jù)的隱藏情況,可以分為對原始數(shù)據(jù)進(jìn)行擾動、替換和匿名隱藏等隱私保護(hù)技術(shù);從數(shù)據(jù)挖掘技術(shù)層面,可以分為針對分類挖掘、聚類挖掘、關(guān)聯(lián)規(guī)則挖掘等隱私保護(hù)技術(shù);從隱藏內(nèi)容層面,可以分為原始數(shù)據(jù)隱藏、模式隱藏。

5.數(shù)據(jù)挖掘集成技術(shù)

數(shù)據(jù)挖掘體系框架由三部分組成:數(shù)據(jù)準(zhǔn)備體系、建模與挖掘體系、結(jié)果解釋與評價體系。其中最為核心的部分是建模與挖掘體系,它主要是根據(jù)挖掘主題和目標(biāo),通過挖掘算法和相關(guān)技術(shù)(如統(tǒng)計(jì)學(xué)、人工智能、數(shù)據(jù)庫、相關(guān)軟件技術(shù)等),對數(shù)據(jù)進(jìn)行分析,挖掘出數(shù)據(jù)之間內(nèi)在的聯(lián)系和潛在的規(guī)律。大體上,數(shù)據(jù)挖掘應(yīng)用集成可分為幾類:數(shù)據(jù)挖掘算法的集成、數(shù)據(jù)挖掘與數(shù)據(jù)庫的集成、數(shù)據(jù)挖掘與數(shù)據(jù)倉庫的集成、數(shù)據(jù)挖掘與相關(guān)軟件技術(shù)的集成、數(shù)據(jù)挖掘與人工智能技術(shù)的集成等。

二、海量數(shù)據(jù)挖掘應(yīng)用廣泛但深度不足

2011年中國數(shù)據(jù)挖掘軟件市場規(guī)模達(dá)接近2億元,2012-2014年還將快速增長。從數(shù)據(jù)挖掘應(yīng)用行業(yè)上看,國內(nèi)大多數(shù)的用戶都來自電信、銀行、保險(xiǎn)、稅務(wù)、政府等領(lǐng)域。應(yīng)用主題主要包含:消費(fèi)者行為分析、信用評分與風(fēng)險(xiǎn)管理、欺詐行為偵測、購物籃分析等方面。目前,國內(nèi)數(shù)據(jù)挖掘應(yīng)用仍停留在初級階段,行業(yè)企業(yè)大規(guī)模的運(yùn)用數(shù)據(jù)挖掘技術(shù)尚需時日。

1.國內(nèi)數(shù)據(jù)挖掘應(yīng)用可分為3個層次

從數(shù)據(jù)挖掘應(yīng)用層次上看,大體可以分為三個層次:第一層次是把挖掘工具當(dāng)作單獨(dú)的工具來用,不用專門建設(shè)系統(tǒng);第二層次則是把數(shù)據(jù)挖掘模塊嵌入到系統(tǒng)中,成為部門級應(yīng)用;第三層次是企業(yè)級應(yīng)用,相當(dāng)于把挖掘系統(tǒng)作為整個企業(yè)運(yùn)營的中央處理器。目前,國內(nèi)的數(shù)據(jù)挖掘應(yīng)用的企業(yè)基本處于第一層次,偶爾某些企業(yè)用戶能夠做到第二層次。

2.國內(nèi)有代表性的數(shù)據(jù)挖掘行業(yè)應(yīng)用情況簡評

(1)通信業(yè):國內(nèi)應(yīng)用數(shù)據(jù)挖掘的企業(yè)還是以通信企業(yè)(移動、聯(lián)通、電信)為首,應(yīng)用的深度和廣度都處于領(lǐng)先地位。

(2)互聯(lián)網(wǎng)企業(yè):隨著電子商務(wù)的普及,各大商務(wù)網(wǎng)站已經(jīng)大規(guī)模使用數(shù)據(jù)挖掘技術(shù),并且迅速從中取得商業(yè)價值。例如,國內(nèi)很多網(wǎng)上商城已經(jīng)開始使用數(shù)據(jù)挖掘技術(shù)進(jìn)行客戶聚類或者商品關(guān)聯(lián)推廣。另外,搜索引擎企業(yè)使用數(shù)據(jù)挖掘技術(shù)的需求也非常迫切。

(3)政府部門:我國政府部門中使用數(shù)據(jù)挖掘技術(shù)比較領(lǐng)先的是稅務(wù)系統(tǒng)。數(shù)據(jù)挖掘在電子政務(wù)中的應(yīng)用,更多的涉及到報(bào)表填制、數(shù)據(jù)統(tǒng)計(jì)。

(4)國內(nèi)金融行業(yè):操作型數(shù)據(jù)挖掘應(yīng)用在國內(nèi)金融行業(yè)應(yīng)用廣泛,尤其是信貸評審領(lǐng)域。中小型銀行數(shù)據(jù)挖掘需求將是未來金融行業(yè)數(shù)據(jù)挖掘市場的主要增長點(diǎn)。未來5年時間里,數(shù)據(jù)挖掘應(yīng)用在金融行業(yè)仍將高速發(fā)展。

主站蜘蛛池模板: 左权县| 乌拉特前旗| 清流县| 太康县| 确山县| 云和县| 昌宁县| 新兴县| 错那县| 垦利县| 桂东县| 新营市| 合山市| 阳春市| 丹东市| 砀山县| 塔河县| 开封市| 定襄县| 沙洋县| 邯郸县| 库车县| 内江市| 鄂温| 临安市| 建德市| 土默特左旗| 铁岭市| 读书| 定兴县| 伊春市| 阜新市| 昔阳县| 扎兰屯市| 梅河口市| 郓城县| 志丹县| 班戈县| 成安县| 博乐市| 柳州市|