數(shù)據(jù)挖掘技術(shù)匯總十篇

時(shí)間:2022-07-27 10:27:16

序論:好文章的創(chuàng)作是一個(gè)不斷探索和完善的過程,我們?yōu)槟扑]十篇數(shù)據(jù)挖掘技術(shù)范例,希望它們能助您一臂之力,提升您的閱讀品質(zhì),帶來更深刻的閱讀感受。

數(shù)據(jù)挖掘技術(shù)

篇(1)

中圖分類號(hào): C37 文獻(xiàn)標(biāo)識(shí)碼: A

數(shù)據(jù)挖掘,也可以稱為數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn) (Knowledge Discover Database,KDD),就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程[16]。實(shí)際上這是一個(gè)模式提取的過程,主要基于人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等技術(shù),高度自動(dòng)化的分析企業(yè)原有的數(shù)據(jù),做出歸納行的推理,從中挖掘出潛在的模式,預(yù)測(cè)客戶的行為,幫助企業(yè)的決策者調(diào)整市場(chǎng)策略,減少風(fēng)險(xiǎn),做出正確的決策。

1 數(shù)據(jù)挖掘的分類

數(shù)據(jù)挖掘就是發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式。它所發(fā)現(xiàn)的模式按功能模型一般可分為兩大類:描述型(descriptive)的模式和預(yù)測(cè)型(predictive)模式[21]。描述型的模式是對(duì)當(dāng)前數(shù)據(jù)中存在的事實(shí)做規(guī)范的描述,它所揭示的是當(dāng)前數(shù)據(jù)的一般特性;預(yù)測(cè)型模型則是以時(shí)間為關(guān)鍵參數(shù),對(duì)于時(shí)間序列型數(shù)據(jù),根據(jù)其歷史和當(dāng)前的值去預(yù)測(cè)其未來的值。根據(jù)模式的特征,預(yù)測(cè)和描述可以通過下面的任務(wù)來完成。

圖1 數(shù)據(jù)挖掘模型

1) 關(guān)聯(lián)規(guī)則(Association Rules)

關(guān)聯(lián)模式是數(shù)據(jù)項(xiàng)之間存在的關(guān)聯(lián)規(guī)則,是在同一事件中出現(xiàn)不同項(xiàng)之間的相關(guān)性,例如客戶在一次購買活動(dòng)中所購買的不同商品之間的關(guān)聯(lián)性。在數(shù)據(jù)挖掘領(lǐng)域,對(duì)于關(guān)聯(lián)模式的研究開展得比較深入,人們提出了多種關(guān)聯(lián)規(guī)則挖掘算法,如Apriori,DHP,Partition,Sampling,FP-Growth等算法。這些算法能夠發(fā)現(xiàn)數(shù)據(jù)庫中形如“80%的客戶在一次購買活動(dòng)中購買X商品的同時(shí)也購買Y商品”之類的知識(shí)。

2) 分類分析(Classification)

分類就是構(gòu)造一個(gè)分類模型,把具有某些特征的數(shù)據(jù)項(xiàng)映射到某個(gè)給定的類別上。這個(gè)過程分為兩步:模型的創(chuàng)建和模型的使用。模型的創(chuàng)建是指通過對(duì)訓(xùn)練數(shù)據(jù)集的學(xué)習(xí)建立分類模型;模型使用是指使用分類模型對(duì)測(cè)試數(shù)據(jù)和新的數(shù)據(jù)進(jìn)行分類。其中的訓(xùn)練數(shù)據(jù)集是帶有類標(biāo)號(hào)的,也就是在分類之前,要?jiǎng)澐值念悇e是已經(jīng)確定的,通常分類模型是以分類規(guī)則、決策樹或數(shù)學(xué)表達(dá)式的形式給出的。

分類模式往往表現(xiàn)為一棵樹,從樹根開始搜索,沿著數(shù)據(jù)滿足的分支走。走到樹葉時(shí)就能確定類別。已有許多數(shù)據(jù)分類方法,如決策樹方法、統(tǒng)計(jì)方法及粗糙集方法等。Metha, Agrawal, Rissanen等人開始研究面向數(shù)據(jù)庫的分類方法。J. Han等人在他們開發(fā)的知識(shí)發(fā)現(xiàn)系統(tǒng)DBMiner中采用了基于概括的決策樹方法,該方法集成了面向?qū)傩缘臍w納和決策歸納技術(shù)。

3) 聚類分析(Clustering)

聚類就是根據(jù)數(shù)據(jù)的屬性對(duì)一系列未分類數(shù)據(jù)進(jìn)行類別劃分,把一組個(gè)體按照相似性分成若干個(gè)類或簇,即“物以類聚”。其目的是使類間的數(shù)據(jù)差別盡能大,類內(nèi)的數(shù)據(jù)差別盡可能小,即“最小化類間的相似性,最大化類內(nèi)的相似性”原則。與分類模式不同的是聚類中要?jiǎng)澐值念悇e是未知的,它是不依賴于預(yù)先定義的類和帶類標(biāo)號(hào)的訓(xùn)練數(shù)據(jù)集的非監(jiān)督學(xué)習(xí)(unsupervised learning ),無需背景知識(shí),其中類的數(shù)量由系統(tǒng)按照某種性能指標(biāo)自動(dòng)確定。聚類分析的方法有很多,其中包括系統(tǒng)聚類法、分解法、加入法、動(dòng)態(tài)聚類法、模糊聚類法、運(yùn)籌方法等。采用不同的聚類方法,對(duì)于相同的記錄集合可能有不同劃分結(jié)果。

4) 回歸分析(Regression)

回歸模式的函數(shù)定義與分類模式相似,主要差別在于分類模式采用離散預(yù)測(cè)值(例如類標(biāo)號(hào)),而回歸模式則采用連續(xù)的預(yù)測(cè)值。它通過具有己知值的變量來預(yù)測(cè)其他變量的值。在最簡(jiǎn)單的情況下,回歸采用的是類似于線性回歸的標(biāo)準(zhǔn)統(tǒng)計(jì)技術(shù)。但在大多數(shù)現(xiàn)實(shí)世界中的問題是不能用簡(jiǎn)單的線性回歸所能預(yù)測(cè)的。如商品的銷售量、股票價(jià)格、產(chǎn)品合格率等,很難找到簡(jiǎn)單有效的方法來預(yù)測(cè),因?yàn)橐耆孛枋鲞@些事件的變化需要上百個(gè)變量,而且這些變量本身往往都是非線性的。為此學(xué)術(shù)界提出了很多試圖解決這個(gè)問題方法,如邏輯回歸、決策樹和神經(jīng)網(wǎng)絡(luò)等。

5) 序列模式分析(Sequential)

序列模式分析和關(guān)聯(lián)規(guī)則分析相似,它是描述基于時(shí)間或其他序列的經(jīng)常發(fā)生的規(guī)律或趨勢(shì),并對(duì)其進(jìn)行建模。它能發(fā)現(xiàn)數(shù)據(jù)庫中形如“在某一段時(shí)間內(nèi),75%的顧客購買商品A,接著購買商品B,然后又購買商品C,即序列A-B- C出現(xiàn)的頻度較高”之類的知識(shí)。序列模式將關(guān)聯(lián)模式和時(shí)間序列模式結(jié)合起來,重點(diǎn)考慮數(shù)據(jù)之間在時(shí)間維上的關(guān)聯(lián)性。在進(jìn)行序列模式挖掘時(shí)主要有以下幾個(gè)問題值得注意:首先是序列的持續(xù)時(shí)間,也就是某個(gè)時(shí)間序列的有效時(shí)間或者是用戶選擇的一個(gè)時(shí)間段:其次是時(shí)間折疊窗口,即在某一段時(shí)間內(nèi)發(fā)生的事件可以被看作是同時(shí)發(fā)生的;最后是所發(fā)現(xiàn)的模式時(shí)間間隔。

6) 偏差分析(Deviation)

偏差分析是指對(duì)差異或極端特例的描述,如聚類劃分外的偏離值。在大多數(shù)據(jù)挖掘方法中都是將這些偏差信息作為噪聲而丟掉,然而在一些實(shí)際應(yīng)用中,這種罕見的數(shù)據(jù)可能比正常的數(shù)據(jù)更有價(jià)值。比如網(wǎng)絡(luò)的入侵檢測(cè)和信用卡的欺詐檢測(cè)等。我們可在通過這些異常數(shù)據(jù)的偏差來分析其中的原因,以便對(duì)其采用相應(yīng)的措施。

2 數(shù)據(jù)挖掘的主要方法

數(shù)據(jù)挖掘是一門新興的研究領(lǐng)域,其技術(shù)基礎(chǔ)是人工智能(Artificial Intelligence )。它借鑒了信息論、數(shù)理邏輯、進(jìn)化計(jì)算、神經(jīng)計(jì)算和統(tǒng)計(jì)學(xué)等理論和算法[22]。在此介紹幾種主流的方法。

1) 遺傳算法

遺傳算法是一種基于生物進(jìn)化過程的組合優(yōu)化方法,它是生物學(xué)和計(jì)算機(jī)相結(jié)合的產(chǎn)物,由美國密西根大學(xué)的D.J Holland教授和他的同事們?cè)?975年首次提出的。根據(jù)適者生存的原則模擬自然界的生命進(jìn)化機(jī)制,形成當(dāng)前群體適合的規(guī)則組成新群體,以及這些規(guī)則的后代。

基于這些思想,根據(jù)遺傳算法的最適合模型,并進(jìn)一步對(duì)數(shù)據(jù)模型進(jìn)行優(yōu)化。

由于遺傳算法是一種弱算法,具有高效性和靈活性的特點(diǎn),在數(shù)據(jù)挖掘中也用于評(píng)估其他算法的適應(yīng)度。

遺傳算法擅長(zhǎng)于數(shù)據(jù)聚類,通過事件的類比和空間上的類比,可以把大量繁雜的信息數(shù)據(jù)進(jìn)行系統(tǒng)化、條理化,從而找出數(shù)據(jù)之間的內(nèi)在關(guān)系,得出有用的概念和模式。再建立數(shù)據(jù)模式時(shí),將遺傳算法與神經(jīng)網(wǎng)絡(luò)相結(jié)合,可以更好地提高模型的適應(yīng)性。因此遺傳算法廣泛應(yīng)用于自動(dòng)控制、機(jī)器學(xué)習(xí)、模式識(shí)別和組合優(yōu)化等領(lǐng)域。

2) 神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)(neural network )是由多個(gè)神經(jīng)元按照某種方式相互連接形成,靠網(wǎng)絡(luò)狀態(tài)對(duì)外部輸入信息的動(dòng)態(tài)響應(yīng)來處理信息,網(wǎng)絡(luò)的信息分布式存儲(chǔ)于連接權(quán)系數(shù)中,使網(wǎng)絡(luò)具有很強(qiáng)的容錯(cuò)性和魯棒性。神經(jīng)網(wǎng)絡(luò)的核心是結(jié)構(gòu)和算法,例如Hopfield網(wǎng)就是以結(jié)構(gòu)見長(zhǎng),而BP (back propagation)網(wǎng)是以算法見長(zhǎng)。

神經(jīng)網(wǎng)絡(luò)和基于符號(hào)的傳統(tǒng)技術(shù)相比,具有直觀性、并行性和抗噪聲性。目前,已出現(xiàn)了許多網(wǎng)絡(luò)模型和學(xué)習(xí)算法,主要用于分類、優(yōu)化、模式識(shí)別、預(yù)測(cè)和控制等領(lǐng)域。在數(shù)據(jù)挖掘領(lǐng)域,主要采用前向神經(jīng)網(wǎng)絡(luò)提取分類規(guī)則。

在數(shù)據(jù)挖掘領(lǐng)域,將神經(jīng)網(wǎng)絡(luò)用于數(shù)據(jù)挖掘,重點(diǎn)要解決好以下兩個(gè)問題:一是降低訓(xùn)練時(shí)間,二是挖掘結(jié)果的可理解性

3) 統(tǒng)計(jì)分析方法

統(tǒng)計(jì)分析方法是利用統(tǒng)計(jì)學(xué)、概率論的原理對(duì)數(shù)據(jù)庫中的各屬性進(jìn)行統(tǒng)計(jì)分析,從而找出其中的關(guān)系和規(guī)律。統(tǒng)計(jì)分析方法是最基本的數(shù)據(jù)挖掘方法之一。常用的統(tǒng)計(jì)分析方法有

判別分析法:建立一個(gè)或多個(gè)判別函數(shù),并確定一個(gè)判別標(biāo)準(zhǔn),然后對(duì)未知屬性的對(duì)象根據(jù)觀測(cè)值將其劃分歸為已知類別中的一類。

因子分析法:用較少的綜合變量來表達(dá)多個(gè)觀察變量。根據(jù)相關(guān)性大小把變量分組,使得各組內(nèi)的變量之間相關(guān)性較高,不同組變量的相關(guān)性較低。

相關(guān)分析和回歸分析法:相關(guān)分析是用相關(guān)關(guān)系來度量變量間的相關(guān)程度。回歸分析是用數(shù)學(xué)方程來表示變量間的數(shù)量關(guān)系,方法有線性回歸和非線性回歸。

偏最小二乘回歸法:是一種新型的多元統(tǒng)計(jì)數(shù)據(jù)分析方法,它主要研究的是多因變量(結(jié)果)對(duì)多自變量(原因)的回歸建模,特別當(dāng)各變量?jī)?nèi)部高度線性相關(guān)時(shí),用偏最小二乘回歸法更有效。另外,偏最小二乘回歸較好地解決了樣本個(gè)數(shù)少于變量個(gè)數(shù)等問題。

在數(shù)據(jù)挖掘中,統(tǒng)計(jì)分析方法適用于分類挖掘和聚類挖掘。

4) 粗集方法

粗集(rough set)理論的特點(diǎn)是不需要預(yù)先給定某些特征或?qū)傩缘臄?shù)量描述,而是直接從給定問題出發(fā),通過不可分辨關(guān)系和不可分辨類確定問題的近似域,從而找出該問題中的內(nèi)在規(guī)律。粗集理論同模糊集、神經(jīng)網(wǎng)絡(luò)、證據(jù)理論等其它理論均成為不確定性計(jì)算的一個(gè)重要分支。

粗集理論是由波蘭華沙理工大學(xué)的Z.Pawlak教授于1982年提出的一種研究不完整、不確定知識(shí)和數(shù)據(jù)的表達(dá)、學(xué)習(xí)及歸納的理論方法。粗集理論采用了上近似集合、下近似集合和邊界來定義粗糙集。

粗糙集合理論可以用于分類,發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的聯(lián)系。找出可以描述給定數(shù)據(jù)集中所有概念的屬性子集是個(gè)難題。在給定的現(xiàn)實(shí)世界數(shù)據(jù)中,往往有些類不能被可用的屬性區(qū)分,則可以用粗糙集合來近似地定義這些類。根據(jù)目前己有的給定問題的知識(shí),將問題的論域進(jìn)行劃分,然后對(duì)劃分后的每一個(gè)組成部分確定其對(duì)某一概念的支持度,即肯定支持此概念或不支持此概念和模糊概念。上述情況分別用3個(gè)近似集合來表示。即將知識(shí)定義為對(duì)事物的分類能力。這種能力分別由上近似集、下近似集、等價(jià)關(guān)系等概念來體現(xiàn)。

5) 決策樹方法

決策樹((decision tree)是一個(gè)類似于流程圖的樹型結(jié)構(gòu),其中樹的每一個(gè)內(nèi)部節(jié)點(diǎn)代表對(duì)一個(gè)屬性的測(cè)試,其分支代表測(cè)試的每一個(gè)結(jié)果:樹的每一個(gè)葉子節(jié)點(diǎn)代表一個(gè)類別。決策樹通過一系列的規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類。目前許多基于規(guī)則進(jìn)行歸納的商用數(shù)據(jù)挖掘系統(tǒng)都是采用決策樹方法。

決策樹分類方法的優(yōu)點(diǎn):

1、決策樹方法結(jié)構(gòu)簡(jiǎn)單,便于人們理解;

2、決策樹模型效率高,對(duì)訓(xùn)練及數(shù)據(jù)量大的情況較為合適;

3、決策樹方法具有較高的分類精確度;

4、決策樹可以清晰的顯示哪些字段比較重要。

建立一棵決策樹可能只要對(duì)數(shù)據(jù)庫進(jìn)行幾遍掃描之后就能完成,這也意味著需要計(jì)算的資源較少,而且可以很容易的處理包含很多預(yù)測(cè)變量的情況,因此決策樹模型可以建立的很快,并適用于大量的數(shù)據(jù)處理。常用的算法有CHAID,CART,Quest、C5.0和ID3算法。

建立決策樹的過程,即樹的生長(zhǎng)過程是不斷地把數(shù)據(jù)進(jìn)行切分的過程,每次切分對(duì)應(yīng)一個(gè)問題,也對(duì)應(yīng)一個(gè)節(jié)點(diǎn)。對(duì)每個(gè)切分都要求分成的組之間的差異最大。各種決策樹算法之間的k要區(qū)別就是對(duì)這個(gè)“差異”衡量方式的區(qū)別。

對(duì)決策樹的批評(píng)常見的是,認(rèn)為其在為一個(gè)節(jié)點(diǎn)選擇怎樣進(jìn)行分割時(shí)使用的“貪心”算法。此種算法在決定當(dāng)前分割時(shí)根本不考慮此次選擇會(huì)對(duì)將來的分割產(chǎn)生什么樣的影響。換句話說,所有的分割都是順序完成的,一個(gè)節(jié)點(diǎn)完成分割之后不可能以后還有機(jī)會(huì)回頭考慮此次分割的合理性,每次分割都是依賴于它前面的分割方法,只要第一次分割有一點(diǎn)點(diǎn)不同,那么由此得到的整個(gè)決策樹就會(huì)完全不同。

除上述方法外,還有把數(shù)據(jù)與結(jié)果轉(zhuǎn)化表達(dá)成可視化形式的可視化技術(shù)、模型方法和歸納學(xué)習(xí)等方法。

篇(2)

2、數(shù)據(jù)挖掘技術(shù)

2.1關(guān)聯(lián)規(guī)則方法

關(guān)聯(lián)規(guī)則是一種簡(jiǎn)單,實(shí)用的分析規(guī)則,描述了一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,所挖掘出的關(guān)聯(lián)規(guī)則量往往非常巨大,但是。并不是所有通過關(guān)聯(lián)得到的屬性之間的關(guān)系都有實(shí)際應(yīng)用價(jià)值,對(duì)這些關(guān)聯(lián)規(guī)則進(jìn)行有效的評(píng)價(jià)。篩選出用戶真正感興趣的。有意義的關(guān)聯(lián)規(guī)則尤為重要。

2.2分類和聚類方法

分類就是假定數(shù)據(jù)庫中的每個(gè)對(duì)象屬于一個(gè)預(yù)先給定的類。從而將數(shù)據(jù)庫中的數(shù)據(jù)分配到給定的類中。而聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃分成幾個(gè)組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異。分類和聚類的區(qū)別在于分類事先知道類別數(shù)和各類的典型特征,而聚類則事先不知道。聚類方法適合于探討樣本間的內(nèi)部關(guān)系,從而對(duì)樣本結(jié)構(gòu)做出合理的評(píng)價(jià)。

2.3數(shù)據(jù)統(tǒng)計(jì)方法

使用這些方法一般首先建立一個(gè)數(shù)據(jù)模型或統(tǒng)計(jì)模型,然后根據(jù)這種模型提取有關(guān)的知識(shí)。傳統(tǒng)的統(tǒng)計(jì)學(xué)為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法。貝葉斯推理、回歸分析、方差分析等技術(shù)是許多挖掘應(yīng)用中有力的工具之一。

2.4神經(jīng)網(wǎng)絡(luò)方法

神經(jīng)元網(wǎng)絡(luò),具有非線形映射特性、信息的分布存儲(chǔ)、并行處理和全局集體的作用、高度的自學(xué)習(xí)、自組織和自適應(yīng)能力的種種優(yōu)點(diǎn)。這些優(yōu)點(diǎn)使得神經(jīng)元網(wǎng)絡(luò)非常適合解決數(shù)據(jù)挖掘的問題。因此近年來越來越受到人們的關(guān)注。典型的神經(jīng)網(wǎng)絡(luò)模型主要分3大類;用于分類、預(yù)測(cè)和模式識(shí)別的前饋式神經(jīng)網(wǎng)絡(luò)模型;用于聯(lián)想記憶和優(yōu)化計(jì)算的反饋式神經(jīng)網(wǎng)絡(luò)模型;用于聚類的自組織映射方法。

2.5決策樹方法

篇(3)

0 引言

隨著信息科技的進(jìn)步以及電子化時(shí)代的到來,現(xiàn)代信息社會(huì)中數(shù)據(jù)和數(shù)據(jù)庫呈現(xiàn)爆炸式增長(zhǎng)。面對(duì)浩瀚的數(shù)據(jù)海洋,如何從這些龐大的數(shù)據(jù)中找出它們之間存在的“潛伏”的關(guān)系和規(guī)則,進(jìn)而根據(jù)這些關(guān)系和規(guī)則預(yù)測(cè)未來的發(fā)展趨勢(shì),已經(jīng)成為二十一世紀(jì)探索的熱點(diǎn)問題。

數(shù)據(jù)挖掘(Data Mining)技術(shù)的誕生,為解決這一問題提供了可以參考的方法,是開發(fā)信息資源的一種新的數(shù)據(jù)處理技術(shù)。它不僅能對(duì)過去的數(shù)據(jù)進(jìn)行查詢,而且能夠找出過去數(shù)據(jù)之間的潛在聯(lián)系,進(jìn)行更高層次的分析,以便更好地解決決策、預(yù)測(cè)等問題。

1 數(shù)據(jù)挖掘概述

數(shù)據(jù)挖掘就是從大型數(shù)據(jù)集(可能是不完全的、有噪聲的、不確定性的、各種存儲(chǔ)形式的)中,挖掘隱含在其中的、人們事先不知道的、對(duì)決策有用的知識(shí)的過程。數(shù)據(jù)挖掘的目的是為了從這些數(shù)據(jù)中抽取一些有價(jià)值的知識(shí)或信息,提高信息利用率。

數(shù)據(jù)挖掘主要有以下對(duì)象:

(1)關(guān)系型數(shù)據(jù)庫、事務(wù)型數(shù)據(jù)庫、面向?qū)ο蟮臄?shù)據(jù)庫;

(2)數(shù)據(jù)倉庫/多維數(shù)據(jù)庫;

(3)空間數(shù)據(jù)(如地圖信息);

(4)工程數(shù)據(jù)(如建筑、集成電路的信息);

(5)文本和多媒體數(shù)據(jù)(如文本、圖象、音頻、視頻數(shù)據(jù));

(6)時(shí)間相關(guān)的數(shù)據(jù)(如歷史數(shù)據(jù)或股票交換數(shù)據(jù));

(7)萬維網(wǎng)(如半結(jié)構(gòu)化的HTML,結(jié)構(gòu)化的XML以及其他網(wǎng)絡(luò)信息)。

數(shù)據(jù)挖掘的步驟一般會(huì)因不同的實(shí)際應(yīng)用情況而有所變化,其過程就是用一定的數(shù)據(jù)挖掘算法從給定的數(shù)據(jù)庫中提取模型,以及圍繞數(shù)據(jù)挖掘所進(jìn)行的預(yù)處理和結(jié)果表達(dá)等一系列的步驟,是一個(gè)需要經(jīng)過反復(fù)的多次處理的過程。圖1顯示的是數(shù)據(jù)挖掘過程,主要由以下步驟組成:

(1)數(shù)據(jù)清理(消除噪音或不一致數(shù)據(jù));

(2)數(shù)據(jù)集成(多種數(shù)據(jù)源可以組合在一起);

(3)數(shù)據(jù)選擇(從數(shù)據(jù)庫中提取與分析任務(wù)相關(guān)的數(shù)據(jù));

(4)數(shù)據(jù)變換(數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式;如通過匯總或聚集操作);

(5)數(shù)據(jù)挖掘(基本步驟,使用智能方法提取數(shù)據(jù)模式);

(6)模式評(píng)估(根據(jù)某種興趣度度量,識(shí)別提供知識(shí)的真正有趣的模式);

(7)知識(shí)表示(使用可視化和知識(shí)表示技術(shù),向用戶提供挖掘的知識(shí))。

例如,應(yīng)用數(shù)據(jù)挖掘算法中聚類分析的方法,可以在城市規(guī)劃的過程中,根據(jù)類型、價(jià)格、地理位置等來劃分不同類型的住宅。具體使用哪種數(shù)據(jù)挖掘算法,要根據(jù)具體情況和應(yīng)用要求而定。一種數(shù)據(jù)挖掘算法可能在一種情況下適用,而在另一種情況下就不適用。在特定的應(yīng)用環(huán)境下,應(yīng)找出最適用的數(shù)據(jù)挖掘算法,并加以實(shí)施。

3 數(shù)據(jù)挖掘的應(yīng)用

3.1 數(shù)據(jù)挖掘在零售業(yè)中的應(yīng)用

由于零售業(yè)便于搜集大量的銷售數(shù)據(jù)、顧客購物記錄、貨物運(yùn)送、消費(fèi)模式和服務(wù)記錄等特點(diǎn),使其成為數(shù)據(jù)挖掘的主要應(yīng)用領(lǐng)域。

零售商們采用數(shù)據(jù)倉庫使他們有更好的機(jī)會(huì)運(yùn)用數(shù)據(jù)挖掘技術(shù)。通過數(shù)據(jù)挖掘,零售商們可以了解銷售全局、對(duì)商品分組布局、降低庫存成本、分析銷售市場(chǎng)趨勢(shì),從而更加有效地對(duì)商品進(jìn)行促銷。大型的零售連鎖店和雜貨店用大量的“信息豐富” 的銷售數(shù)據(jù),通過數(shù)據(jù)挖掘揭示一些沒有發(fā)現(xiàn)的“隱藏關(guān)系”,其中最著名的啤酒和尿布的故事即是數(shù)據(jù)挖掘在零售業(yè)中典型的應(yīng)用。

3.2 數(shù)據(jù)挖掘在體育競(jìng)技中的應(yīng)用

先進(jìn)信息技術(shù)的運(yùn)用是美國NBA職籃聯(lián)盟成功的眾多因素中非常重要的一個(gè)。例如,魔術(shù)隊(duì)教練利用IBM公司開發(fā)的數(shù)據(jù)挖掘應(yīng)用軟件Advanced Scout,對(duì)不同的隊(duì)員布陣時(shí)的相對(duì)優(yōu)勢(shì)進(jìn)行了系統(tǒng)的分析,并根據(jù)分析結(jié)果取得了對(duì)邁阿密熱隊(duì)4連勝的戰(zhàn)績(jī)。

3.3 數(shù)據(jù)挖掘在企業(yè)中的應(yīng)用

數(shù)據(jù)挖掘在企業(yè)信息處理中的應(yīng)用是一個(gè)將信息轉(zhuǎn)化為企業(yè)商業(yè)知識(shí)的過程。它主要用于企業(yè)的客戶關(guān)系管理、市場(chǎng)分析、營(yíng)銷策略和趨勢(shì)預(yù)測(cè)等方面。

數(shù)據(jù)挖掘技術(shù)已經(jīng)廣泛應(yīng)用在美國銀行和金融領(lǐng)域中。例如用數(shù)據(jù)挖掘工具M(jìn)arksman可以分析消費(fèi)者的賒賬卡、家庭貸款、投資產(chǎn)品以及儲(chǔ)蓄等信息,并對(duì)客戶進(jìn)行分類,從而預(yù)測(cè)何時(shí)哪類產(chǎn)品最適合哪類客戶,因而被美國Firstar等銀行使用。此外,近年來數(shù)據(jù)挖掘技術(shù)在信用記分的研究和應(yīng)用方面也取得了很大的進(jìn)步。銀行利用Credit Scoring技術(shù)對(duì)客戶的一些信息(如基本資料、資產(chǎn)以及以往信用等)進(jìn)行分析、評(píng)估,做出最有利的決定。

數(shù)據(jù)挖掘在電信行業(yè)中的應(yīng)用也很廣泛。它可以幫助電信企業(yè)制定合理的電話收費(fèi)和服務(wù)標(biāo)準(zhǔn)、針對(duì)特別的客戶群的優(yōu)惠政策、防止費(fèi)用欺詐等。

3.4 數(shù)據(jù)挖掘在科學(xué)探索中的應(yīng)用

隨著數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展和完善,已經(jīng)逐步應(yīng)用到尖端科學(xué)的探索中。數(shù)據(jù)挖掘技術(shù)在生物學(xué)中的應(yīng)用主要集中于分子生物學(xué)特別是基因工程的研究上。通過用計(jì)算生物分子系列分析方法,尤其是基因數(shù)據(jù)庫搜索技術(shù)已在基因研究上做出了很多重大發(fā)現(xiàn)。

SKICAT(Sky Image Cataloging and Analysis Tool)是天文學(xué)上一個(gè)非常著名的系統(tǒng)。該系統(tǒng)使用數(shù)據(jù)挖掘算法中的決策樹方法構(gòu)造分星體類器對(duì)星體進(jìn)行分類,結(jié)果使得能分辨的星體與以前的方法相比,在亮度上要低一個(gè)數(shù)量級(jí)之多,并且在效率上這種方法比以往的方法高40倍以上。

3.5 數(shù)據(jù)挖掘在信息安全中的應(yīng)用

利用數(shù)據(jù)挖掘作為入侵檢測(cè)的數(shù)據(jù)分析技術(shù),把“潛伏”的安全信息從海量的安全事件數(shù)據(jù)中提取出來,抽象出有利于進(jìn)行判斷和比較的與安全相關(guān)的普遍特征,進(jìn)而發(fā)現(xiàn)不確定的入侵行為,并作出判斷、決策(如圖3)。相對(duì)于傳統(tǒng)的入侵檢測(cè)分析技術(shù),數(shù)據(jù)挖掘具有良好的自適應(yīng)性、誤警率低且能減輕數(shù)據(jù)過載,大大提高了檢測(cè)和響應(yīng)的效率和速度。

圖3 數(shù)據(jù)挖掘方法的入侵檢測(cè)系統(tǒng)流程圖數(shù)據(jù)挖掘這一新興技術(shù)至今已經(jīng)在商業(yè)、銀行、金融、制造業(yè)、互聯(lián)網(wǎng)絡(luò)、教育、科學(xué)研究等領(lǐng)域廣泛應(yīng)用,并且給我們的社會(huì)和生活帶來了極大的改觀。

參考文獻(xiàn)

[1]Margaret H.Dunham: DATA MINING Introductory and Advanced Topics[M].北京:清華大學(xué)出版社,2003.

[2]Mehmed Kantardzic: DATA MINING Concepts,Models,Methods,and Algorithms[M].北京:清華大學(xué)出版社,2003.

篇(4)

隨著計(jì)算機(jī)和互聯(lián)網(wǎng)技術(shù)的迅速崛起與普及,人們(當(dāng)然包括犯罪分子和)已經(jīng)離不開手機(jī)、電腦、智能電視等智能終端設(shè)備,不少日常活動(dòng)基本上都可以數(shù)字化地表示。幾點(diǎn)幾分從家出門,坐什么車花了多長(zhǎng)時(shí)間到了工作地點(diǎn)。這期間,無論是誰,每發(fā)一次微博和打一次電話,包括經(jīng)緯度在內(nèi)的精確地理位置信息都被記錄在案,而通話記錄在許多年之后仍可以被調(diào)閱查詢。總之,在通信技術(shù)無孔不入的時(shí)代,人們的一舉一動(dòng)都產(chǎn)生了大量的數(shù)據(jù)。而在很多時(shí)候,這些原始數(shù)據(jù)就會(huì)成為司法部門破案時(shí)所需要分析的材料。

數(shù)據(jù)挖掘是通過分析每個(gè)數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),主要有數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示三個(gè)步驟。數(shù)據(jù)準(zhǔn)備是從相關(guān)的數(shù)據(jù)源中選取所需的數(shù)據(jù)并整合成用于數(shù)據(jù)挖掘的數(shù)據(jù)集;規(guī)律尋找是用某種方法將數(shù)據(jù)集所含的規(guī)律找出來;規(guī)律表示是盡可能以可理解的方式(如可視化)將找出的規(guī)律表示出來。由于人類從來沒有像今天這樣如此依賴網(wǎng)絡(luò)和電子設(shè)備,因此,信息時(shí)代眾多的電子蹤跡讓研究每個(gè)人、每個(gè)群體,甚至整個(gè)人類的習(xí)慣成為了可能。

篇(5)

1數(shù)據(jù)挖掘技術(shù)的概述

數(shù)據(jù)挖掘是通過對(duì)各種數(shù)據(jù)信息進(jìn)行有選擇的統(tǒng)計(jì)、歸類以及分析等挖掘隱含的有用的信息,從而為實(shí)踐應(yīng)用提出有用的決策信息的過程。通俗的說數(shù)據(jù)挖掘就是一種借助于多種數(shù)據(jù)分析工具在海量的數(shù)據(jù)信息中挖掘模數(shù)據(jù)信息和模型之間關(guān)系的技術(shù)總裁,通過對(duì)這種模型進(jìn)行認(rèn)識(shí)和理解,分析它們的對(duì)應(yīng)關(guān)系,以此來指導(dǎo)各行各業(yè)的生產(chǎn)和發(fā)展,提供重大決策上的支持。數(shù)據(jù)挖掘技術(shù)是對(duì)海量數(shù)據(jù)信息的統(tǒng)計(jì)、分析等因此數(shù)據(jù)挖掘技術(shù)呈現(xiàn)以下特點(diǎn):一是數(shù)據(jù)挖掘技術(shù)主要是借助各種其它專業(yè)學(xué)科的知識(shí),從而建立挖掘模型,設(shè)計(jì)相應(yīng)的模型算法,從而找出其中的潛在規(guī)律等,揭示其中的內(nèi)在聯(lián)系性;二是數(shù)據(jù)挖掘主要是處理各行數(shù)據(jù)庫中的信息,因此這些信息是經(jīng)過預(yù)處理的;三是以構(gòu)建數(shù)據(jù)模型的方式服務(wù)于實(shí)踐應(yīng)用。當(dāng)然數(shù)據(jù)挖掘并不是以發(fā)現(xiàn)數(shù)據(jù)理論為目的,而是為了在各行各業(yè)的信息中找出有用的數(shù)據(jù)信息,滿足用戶的需求。

2數(shù)據(jù)挖掘的功能

結(jié)合數(shù)據(jù)挖掘技術(shù)的概述,數(shù)據(jù)挖掘主要具體以下功能:一是自動(dòng)預(yù)測(cè)趨勢(shì)和行為。數(shù)據(jù)挖掘主要是在復(fù)雜的數(shù)據(jù)庫中尋找自己有用的信息,以往的信息搜索需要采取手工分析的方式,如今通過數(shù)據(jù)挖掘可以快速的將符合數(shù)據(jù)本身的數(shù)據(jù)找出來;二是關(guān)聯(lián)分析。關(guān)聯(lián)性就是事物之間存在某種的聯(lián)系性,這種事物必須要在兩種以上,數(shù)據(jù)關(guān)聯(lián)是在復(fù)雜的數(shù)據(jù)中存在一類重要的可被發(fā)現(xiàn)的知識(shí);三是概念描述。概念描述分為特征性描述和區(qū)別性描述;四是偏差檢測(cè)。

3數(shù)據(jù)挖掘技術(shù)的步驟分析

3.1處理過程

數(shù)據(jù)挖掘雖然能夠?qū)崿F(xiàn)在復(fù)雜的數(shù)據(jù)庫中尋求自己的數(shù)據(jù)資源,但是其需要建立人工模型,根據(jù)人工模型實(shí)現(xiàn)對(duì)數(shù)據(jù)的統(tǒng)計(jì)、分析以及利用等。

3.2關(guān)鍵技術(shù)

由于數(shù)據(jù)挖掘涉及到很多專業(yè)學(xué)科,因此相對(duì)來說,數(shù)據(jù)挖掘技術(shù)融合多門專業(yè)技術(shù)學(xué)科的知識(shí),結(jié)合實(shí)踐,數(shù)據(jù)挖掘技術(shù)主要應(yīng)用到以下算法和模型:一是傳統(tǒng)統(tǒng)計(jì)方法。采取傳統(tǒng)的統(tǒng)計(jì)方法主要有抽樣技術(shù),也就是采取相應(yīng)的策略對(duì)數(shù)據(jù)進(jìn)行合理的抽樣。多元化統(tǒng)計(jì)和統(tǒng)計(jì)預(yù)測(cè)方法;二是可視化技術(shù),可視化技術(shù)是數(shù)據(jù)挖掘技術(shù)的熱點(diǎn),它是采取可視化技術(shù)與數(shù)據(jù)挖掘過程的結(jié)合,以直觀的圖形等使人們更好地進(jìn)行數(shù)據(jù)挖掘技術(shù);三是決策樹。決策樹需要對(duì)數(shù)據(jù)庫進(jìn)行幾遍的掃描之后,才能完成,因此其在具體的處理過程中可能會(huì)包括很多的預(yù)測(cè)變量情況;四是4)聚類分析方法。聚類分析方法是一種非參數(shù)分析方法,主要用于分析樣本分組中多維數(shù)據(jù)點(diǎn)間的差異和聯(lián)系。判別分析法需要預(yù)先設(shè)定一個(gè)指針變量,假設(shè)總體為正太分布,必須嚴(yán)格遵守?cái)?shù)理依據(jù)。而聚類分析則沒有這些假設(shè)和原則,只需要通過搜集數(shù)據(jù)和轉(zhuǎn)換成相似矩陣兩個(gè)步驟,就能完成聚類分析的全過程。聚類分析主要用于獲取數(shù)據(jù)的分布情況,能夠簡(jiǎn)單方便的發(fā)現(xiàn)全局的分布模式,識(shí)別出密集和系數(shù)區(qū)域;此外,對(duì)于單個(gè)類的分析也有很強(qiáng)的處理能力,能深入分析每個(gè)類的特征,并找出變量和類之間的內(nèi)在聯(lián)系。基于距離、層次、密度和網(wǎng)絡(luò)的方法是最常用的聚類分析方法。

4數(shù)據(jù)挖掘技術(shù)的實(shí)踐應(yīng)用

數(shù)據(jù)挖掘技術(shù)雖然在我國發(fā)展的時(shí)間還不長(zhǎng),但是其在實(shí)踐中的應(yīng)用已經(jīng)非常的廣泛,因?yàn)閿?shù)據(jù)挖掘技術(shù)在實(shí)踐中的應(yīng)用價(jià)值是非常大的,其可以提取隱藏在數(shù)據(jù)背后的有用信息,具體來看,其主要應(yīng)用在:(1)在醫(yī)學(xué)上的應(yīng)用。人體的奧秘是無窮無盡的,人類遺傳密碼的信息、人類疾病史和治療方法等,都隱含了大量數(shù)據(jù)信息。采用數(shù)據(jù)挖掘來解決這些問題,將給相關(guān)工作者的工作帶來很大方便。此外,醫(yī)院內(nèi)部醫(yī)藥器具的管理、病人檔案資料的整理、醫(yī)院內(nèi)部結(jié)構(gòu)的管理等,也是龐大的數(shù)據(jù)庫。將數(shù)據(jù)挖掘技術(shù)應(yīng)用于醫(yī)學(xué)領(lǐng)域,深入分析人類疾病間的內(nèi)在聯(lián)系和規(guī)律,幫助醫(yī)生進(jìn)行診斷和治療,能夠有效提高醫(yī)生診斷的準(zhǔn)確率,對(duì)人類的健康和醫(yī)療事業(yè)的發(fā)展有十分重要的作用。(2)在電信業(yè)中的應(yīng)用。隨著三網(wǎng)融合技術(shù)的不斷發(fā)展,傳統(tǒng)的電信業(yè)務(wù)已經(jīng)不能滿足當(dāng)前社會(huì)發(fā)展的需求,而是側(cè)重通信、圖像以及網(wǎng)絡(luò)等業(yè)務(wù)的融合,而實(shí)現(xiàn)“三網(wǎng)融合”的關(guān)鍵技術(shù)是實(shí)現(xiàn)對(duì)數(shù)據(jù)的分析與統(tǒng)計(jì),因?yàn)槿W(wǎng)融合會(huì)帶來更多的數(shù)據(jù),這些數(shù)據(jù)都需要充分的挖掘,以此實(shí)現(xiàn)“三網(wǎng)融合”戰(zhàn)略的實(shí)現(xiàn)。將數(shù)據(jù)挖掘技術(shù)與電信業(yè)務(wù)有效的結(jié)合起來,能夠提高資源利用率,更深入的了解用戶的行為,促進(jìn)電信業(yè)務(wù)的推廣,幫助各行各業(yè)獲取更大的經(jīng)濟(jì)效益。(3)在高校貧困生管理的應(yīng)用。貧困生管理分析系統(tǒng)主要應(yīng)用了數(shù)據(jù)倉庫技術(shù)以及數(shù)據(jù)挖掘技術(shù),其主要是將高校貧困生的各種信息統(tǒng)一納入到高校信息管理平臺(tái)中,然后根據(jù)具體的貧困生劃分標(biāo)準(zhǔn),建立模型,進(jìn)而對(duì)學(xué)生的信息進(jìn)行統(tǒng)計(jì)與分析,實(shí)現(xiàn)對(duì)貧困生信息的科學(xué)管理,便于高校管理者及時(shí)了解學(xué)生的信息。

5結(jié)語

總之?dāng)?shù)據(jù)挖掘技術(shù)在實(shí)踐中的廣泛應(yīng)用,為我國互聯(lián)網(wǎng)+戰(zhàn)略提供了關(guān)鍵技術(shù)支撐,但是由于數(shù)據(jù)挖掘技術(shù)在實(shí)踐中還存在某些技術(shù)問題,比如各種模型和技術(shù)難于集成、缺少與數(shù)據(jù)庫系統(tǒng)耦合的通用API或挖掘系統(tǒng)僅提供孤立的知識(shí)發(fā)現(xiàn)功能,難于嵌入大型應(yīng)用等問題導(dǎo)致挖掘技術(shù)在實(shí)踐中的應(yīng)用還存在缺陷,因此需要我們加大對(duì)數(shù)據(jù)挖掘技術(shù)的進(jìn)一步研究,以此更好地實(shí)現(xiàn)“互聯(lián)網(wǎng)+”戰(zhàn)略。

作者:陳建偉 李麗坤 單位:安陽職業(yè)技術(shù)學(xué)院

篇(6)

隨著信息技術(shù)迅速發(fā)展,數(shù)據(jù)庫的規(guī)模不斷擴(kuò)大,產(chǎn)生了大量的數(shù)據(jù)。但大量的數(shù)據(jù)往往無法辨別隱藏在其中的能對(duì)決策提供支持的信息,而傳統(tǒng)的查詢、報(bào)表工具無法滿足挖掘這些信息的需求。因此,需要一種新的數(shù)據(jù)分析技術(shù)處理大量數(shù)據(jù),并從中抽取有價(jià)值的潛在知識(shí),數(shù)據(jù)挖掘(DataMining)技術(shù)由此應(yīng)運(yùn)而生。

一、數(shù)據(jù)挖掘的定義

數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動(dòng)抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測(cè)未來可能發(fā)生的行為。數(shù)據(jù)挖掘的過程也叫知識(shí)發(fā)現(xiàn)的過程。

二、數(shù)據(jù)挖掘的方法

1.統(tǒng)計(jì)方法。傳統(tǒng)的統(tǒng)計(jì)學(xué)為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類問題,回歸分析用來找到一個(gè)輸入變量和輸出變量關(guān)系的最佳模型,在回歸分析中有用來描述一個(gè)變量的變化趨勢(shì)和別的變量值的關(guān)系的線性回歸,還有用來為某些事件發(fā)生的概率建模為預(yù)測(cè)變量集的對(duì)數(shù)回歸、統(tǒng)計(jì)方法中的方差分析一般用于分析估計(jì)回歸直線的性能和自變量對(duì)最終回歸的影響,是許多挖掘應(yīng)用中有力的工具之一。

2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡(jiǎn)單,實(shí)用的分析規(guī)則,它描述了一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關(guān)系,原因之一是它不受只選擇一個(gè)因變量的限制。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過關(guān)聯(lián)得到的屬性之間的關(guān)系都有實(shí)際應(yīng)用價(jià)值,要對(duì)這些規(guī)則要進(jìn)行有效的評(píng)價(jià),篩選有意義的關(guān)聯(lián)規(guī)則。

3.聚類分析。聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃分成幾個(gè)組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內(nèi)部關(guān)系,從而對(duì)樣本結(jié)構(gòu)做出合理的評(píng)價(jià),此外,聚類分析還用于對(duì)孤立點(diǎn)的檢測(cè)。并非由聚類分析算法得到的類對(duì)決策都有效,在運(yùn)用某一個(gè)算法之前,一般要先對(duì)數(shù)據(jù)的聚類趨勢(shì)進(jìn)行檢驗(yàn)。

4.決策樹方法。決策樹學(xué)習(xí)是一種通過逼近離散值目標(biāo)函數(shù)的方法,通過把實(shí)例從根結(jié)點(diǎn)排列到某個(gè)葉子結(jié)點(diǎn)來分類實(shí)例,葉子結(jié)點(diǎn)即為實(shí)例所屬的分類。樹上的每個(gè)結(jié)點(diǎn)說明了對(duì)實(shí)例的某個(gè)屬性的測(cè)試,該結(jié)點(diǎn)的每一個(gè)后繼分支對(duì)應(yīng)于該屬性的一個(gè)可能值,分類實(shí)例的方法是從這棵樹的根結(jié)點(diǎn)開始,測(cè)試這個(gè)結(jié)點(diǎn)指定的屬性,然后按照給定實(shí)例的該屬性值對(duì)應(yīng)的樹枝向下移動(dòng)。決策樹方法是要應(yīng)用于數(shù)據(jù)挖掘的分類方面。

5.神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)建立在自學(xué)習(xí)的數(shù)學(xué)模型基礎(chǔ)之上,能夠?qū)Υ罅繌?fù)雜的數(shù)據(jù)進(jìn)行分析,并可以完成對(duì)人腦或其他計(jì)算機(jī)來說極為復(fù)雜的模式抽取及趨勢(shì)分析,神經(jīng)網(wǎng)絡(luò)既可以表現(xiàn)為有指導(dǎo)的學(xué)習(xí)也可以是無指導(dǎo)聚類,無論哪種,輸入到神經(jīng)網(wǎng)絡(luò)中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡(luò)模擬人腦神經(jīng)元結(jié)構(gòu),建立三大類多種神經(jīng)元網(wǎng)絡(luò),具有非線形映射特性、信息的分布存儲(chǔ)、并行處理和全局集體的作用、高度的自學(xué)習(xí)、自組織和自適應(yīng)能力的種種優(yōu)點(diǎn)。

6.遺傳算法。遺傳算法是一種受生物進(jìn)化啟發(fā)的學(xué)習(xí)方法,通過變異和重組當(dāng)前己知的最好假設(shè)來生成后續(xù)的假設(shè)。每一步,通過使用目前適應(yīng)性最高的假設(shè)的后代替代群體的某個(gè)部分,來更新當(dāng)前群體的一組假設(shè),來實(shí)現(xiàn)各個(gè)個(gè)體的適應(yīng)性的提高。遺傳算法由三個(gè)基本過程組成:繁殖(選擇)是從一個(gè)舊種群(父代)選出生命力強(qiáng)的個(gè)體,產(chǎn)生新種群(后代)的過程;交叉〔重組)選擇兩個(gè)不同個(gè)體〔染色體)的部分(基因)進(jìn)行交換,形成新個(gè)體的過程;變異(突變)是對(duì)某些個(gè)體的某些基因進(jìn)行變異的過程。在數(shù)據(jù)挖掘中,可以被用作評(píng)估其他算法的適合度。

7.粗糙集。粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗(yàn)知識(shí)的情況下,只以考察數(shù)據(jù)的分類能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理問題。粗糙集用于從數(shù)據(jù)庫中發(fā)現(xiàn)分類規(guī)則的基本思想是將數(shù)據(jù)庫中的屬性分為條件屬性和結(jié)論屬性,對(duì)數(shù)據(jù)庫中的元組根據(jù)各個(gè)屬性不同的屬性值分成相應(yīng)的子集,然后對(duì)條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。所有相似對(duì)象的集合稱為初等集合,形成知識(shí)的基本成分。任何初等集合的并集稱為精確集,否則,一個(gè)集合就是粗糙的(不精確的)。每個(gè)粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補(bǔ)集元素的元素。粗糙集理論可以應(yīng)用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。

8.支持向量機(jī)。支持向量機(jī)(SVM)是在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出來的一種新的機(jī)器學(xué)習(xí)方法。它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則上的,盡量提高學(xué)習(xí)機(jī)的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學(xué)習(xí)問題,現(xiàn)已成為訓(xùn)練多層感知器、RBF神經(jīng)網(wǎng)絡(luò)和多項(xiàng)式神經(jīng)元網(wǎng)絡(luò)的替代性方法。另外,支持向量機(jī)算法是一個(gè)凸優(yōu)化問題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點(diǎn)都是包括神經(jīng)元網(wǎng)絡(luò)在內(nèi)的其他算法所不能及的。支持向量機(jī)可以應(yīng)用于數(shù)據(jù)挖掘的分類、回歸、對(duì)未知事物的探索等方面。

事實(shí)上,任何一種挖掘工具往往是根據(jù)具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。

三、結(jié)束語

篇(7)

中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2015)04-0222-01

1 大數(shù)據(jù)時(shí)代數(shù)據(jù)挖掘的重要性

隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算等技術(shù)的快速發(fā)展,以及智能終端、網(wǎng)絡(luò)社會(huì)、數(shù)字地球等信息體的普及和建設(shè),全球數(shù)據(jù)量出現(xiàn)爆炸式增長(zhǎng),僅在2011年就達(dá)到1.8萬億GB。IDC(Internet Data Center,互聯(lián)網(wǎng)絡(luò)數(shù)據(jù)中心)預(yù)計(jì),到2020 年全球數(shù)據(jù)量將增加50倍。毋庸置疑,大數(shù)據(jù)時(shí)代已經(jīng)到來。一方面,云計(jì)算為這些海量的、多樣化的數(shù)據(jù)提供存儲(chǔ)和運(yùn)算平臺(tái),同時(shí)數(shù)據(jù)挖掘和人工智能從大數(shù)據(jù)中發(fā)現(xiàn)知識(shí)、規(guī)律和趨勢(shì),為決策提供信息參考。

如果運(yùn)用合理的方法和工具,在企業(yè)日積月累形成的浩瀚數(shù)據(jù)中,是可以淘到沙金的,甚至可能發(fā)現(xiàn)許多大的鉆石。在一些信息化較成熟的行業(yè),就有這樣的例子。比如銀行的信息化建設(shè)就非常完善,銀行每天生成的數(shù)據(jù)數(shù)以萬計(jì),儲(chǔ)戶的存取款數(shù)據(jù)、ATM交易數(shù)據(jù)等。

數(shù)據(jù)挖掘是借助IT手段對(duì)經(jīng)營(yíng)決策產(chǎn)生決定性影響的一種管理手段。從定義上來看,數(shù)據(jù)挖掘是指一個(gè)完整的過程,該過程是從大量、不完全、模糊和隨機(jī)的數(shù)據(jù)集中識(shí)別有效的、可實(shí)用的信息,并運(yùn)用這些信息做出決策。

2 數(shù)據(jù)挖掘的分類

數(shù)據(jù)挖掘技術(shù)從開始的單一門類的知識(shí)逐漸發(fā)展成為一門綜合性的多學(xué)科知識(shí),并由此產(chǎn)生了很多的數(shù)據(jù)挖掘方法,這些方法種類多,類型也有很大的差別。為了滿足用戶的實(shí)際需要,現(xiàn)對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行如下幾種分類:

2.1 按挖掘的數(shù)據(jù)庫類型分類

利用數(shù)據(jù)庫對(duì)數(shù)據(jù)分類成為可能是因?yàn)閿?shù)據(jù)庫在對(duì)數(shù)據(jù)儲(chǔ)存時(shí)就可以對(duì)數(shù)據(jù)按照其類型、模型以及應(yīng)用場(chǎng)景的不同來進(jìn)行分類,根據(jù)這種分類得到的數(shù)據(jù)在采用數(shù)據(jù)挖掘技術(shù)時(shí)也會(huì)有滿足自身的方法。對(duì)數(shù)據(jù)的分類有兩種情況,一種是根據(jù)其模型來分類,另一種是根據(jù)其類型來分類,前者包括關(guān)系型、對(duì)象-關(guān)系型以及事務(wù)型和數(shù)據(jù)倉庫型等,后者包括時(shí)間型、空間型和Web 型的數(shù)據(jù)挖掘方法。

2.2 按挖掘的知識(shí)類型分類

這種分類方法是根據(jù)數(shù)據(jù)挖掘的功能來實(shí)施的,其中包括多種分析的方式,例如相關(guān)性、預(yù)測(cè)及離群點(diǎn)分析方法,充分的數(shù)據(jù)挖掘不僅僅是一種單一的功能模式,而是各種不同功能的集合。同時(shí),在上述分類的情況下,還可以按照數(shù)據(jù)本身的特性和屬性來對(duì)其進(jìn)行分類,例如數(shù)據(jù)的抽象性和數(shù)據(jù)的粒度等,利用數(shù)據(jù)的抽象層次來分類時(shí)可以將數(shù)據(jù)分為三個(gè)層次,即廣義知識(shí)的高抽象層,原始知識(shí)的原始層以及到多層的知識(shí)的多個(gè)抽象層。一個(gè)完善的數(shù)據(jù)挖掘可以實(shí)現(xiàn)對(duì)多個(gè)抽象層數(shù)據(jù)的挖掘,找到其有價(jià)值的知識(shí)。同時(shí),在對(duì)數(shù)據(jù)挖掘進(jìn)行分類時(shí)還可以根據(jù)其表現(xiàn)出來的模式及規(guī)則性和是否檢測(cè)出噪聲來分類,一般來說,數(shù)據(jù)的規(guī)則性可以通過多種不同的方法挖掘,例如相關(guān)性和關(guān)聯(lián)分析以及通過對(duì)其概念描述和聚類分類、預(yù)測(cè)等方法,同時(shí)還可以通過這些挖掘方法來檢測(cè)和排除噪聲。

2.3 按所用的技術(shù)類型分類

數(shù)據(jù)挖掘的時(shí)候采用的技術(shù)手段千變?nèi)f化,例如可以采用面向數(shù)據(jù)庫和數(shù)據(jù)倉庫的技術(shù)以及神經(jīng)網(wǎng)絡(luò)及其可視化等技術(shù)手段,同時(shí)用戶在對(duì)數(shù)據(jù)進(jìn)行分析時(shí)也會(huì)使用很多不同的分析方法,根據(jù)這些分析方法的不同可以分為遺傳算法、人工神經(jīng)網(wǎng)絡(luò)等等。一般情況下,一個(gè)龐大的數(shù)據(jù)挖掘系統(tǒng)是集多種挖掘技術(shù)和方法的綜合性系統(tǒng)。

2.4 按應(yīng)用分類

根據(jù)數(shù)據(jù)挖掘的應(yīng)用的領(lǐng)域來進(jìn)行分類,包括財(cái)經(jīng)行業(yè)、交通運(yùn)輸業(yè)、網(wǎng)絡(luò)通信業(yè)、生物醫(yī)學(xué)領(lǐng)域如DNA等,在這些行業(yè)或領(lǐng)域中都有滿足自身要求的數(shù)據(jù)挖掘方法。對(duì)于特定的應(yīng)用場(chǎng)景,此時(shí)就可能需要與之相應(yīng)的特殊的挖掘方法,并保證其有效性。綜上所述,基本上不存在某種數(shù)據(jù)挖掘技術(shù)可以在所有的行業(yè)中都能使用的技術(shù),每種數(shù)據(jù)挖掘技術(shù)都有自身的專用性。

3 數(shù)據(jù)挖掘中常用的方法

目前數(shù)據(jù)挖掘方法主要有4種,這四種算法包括遺傳、決策樹、粗糙集和神經(jīng)網(wǎng)絡(luò)算法。以下對(duì)這四種算法進(jìn)行一一解釋說明。

遺傳算法:該算法依據(jù)生物學(xué)領(lǐng)域的自然選擇規(guī)律以及遺傳的機(jī)理發(fā)展而來,是一種隨機(jī)搜索的算法,利用仿生學(xué)的原理來對(duì)數(shù)據(jù)知識(shí)進(jìn)行全局優(yōu)化處理。是一種基于生物自然選擇與遺傳機(jī)理的隨機(jī)搜索算法,是一種仿生全局優(yōu)化方法。這種算法具有隱含并行性、易與其它模型結(jié)合等優(yōu)點(diǎn)從而在數(shù)據(jù)挖掘中得到了應(yīng)用。

決策樹算法:在對(duì)模型的預(yù)測(cè)中,該算法具有很強(qiáng)的優(yōu)勢(shì),利用該算法對(duì)龐大的數(shù)據(jù)信息進(jìn)行分類,從而對(duì)有潛在價(jià)值的信息進(jìn)行定位,這種算法的優(yōu)勢(shì)也比較明顯,在利用這種算法對(duì)數(shù)據(jù)進(jìn)行分類時(shí)非常迅速,同時(shí)描述起來也很簡(jiǎn)潔,在大規(guī)模數(shù)據(jù)處理時(shí),這種方法的應(yīng)用性很強(qiáng)。

粗糙集算法:這個(gè)算法將知識(shí)的理解視為對(duì)數(shù)據(jù)的劃分,將這種劃分的一個(gè)整體叫做概念,這種算法的基本原理是將不夠精確的知識(shí)與確定的或者準(zhǔn)確的知識(shí)進(jìn)行類別同時(shí)進(jìn)行類別刻畫。

神經(jīng)網(wǎng)絡(luò)算法:在對(duì)模型的預(yù)測(cè)中,該算法具有很強(qiáng)的優(yōu)勢(shì),利用該算法對(duì)龐大的數(shù)據(jù)信息進(jìn)行分類,從而對(duì)有潛在價(jià)值的信息進(jìn)行定位,這種算法的優(yōu)勢(shì)也比較明顯,在利用這種算法對(duì)數(shù)據(jù)進(jìn)行分類時(shí)非常迅速,同時(shí)描述起來也很簡(jiǎn)潔,在大規(guī)模數(shù)據(jù)處理時(shí),這種方法的應(yīng)用性很強(qiáng)。光纜監(jiān)測(cè)及其故障診斷系統(tǒng)對(duì)于保證通信的順利至關(guān)重要,同時(shí)這種技術(shù)方法也是順應(yīng)當(dāng)今時(shí)代的潮流必須推廣使用的方法。同時(shí),該診斷技術(shù)為通信管網(wǎng)和日常通信提供了可靠的技術(shù)支持和可靠的后期保證。

參考文獻(xiàn)

篇(8)

中圖分類號(hào):F49 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2015)030-0209-01

近幾年,大數(shù)據(jù)(big data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時(shí)代產(chǎn)生的海量數(shù)據(jù),并命名與之相關(guān)的技術(shù)發(fā)展與創(chuàng)新。2012 年3 月,奧巴馬公布了美國《大數(shù)據(jù)研究和發(fā)展計(jì)劃》,標(biāo)志著大數(shù)據(jù)已經(jīng)成為國家戰(zhàn)略,上升為國家意志。從硅谷到北京,大數(shù)據(jù)的話題傳播迅速。

1 大數(shù)據(jù)時(shí)代

隨著計(jì)算機(jī)技術(shù)全面融入社會(huì)生活,經(jīng)過半個(gè)多世紀(jì)的發(fā)展,信息爆炸已經(jīng)積累到了一個(gè)開始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長(zhǎng)速度也在加快。最先經(jīng)歷信息爆炸的學(xué)科,如天文學(xué)和基因?qū)W,創(chuàng)造出了“大數(shù)據(jù)”這個(gè)概念。

1.1 大數(shù)據(jù)時(shí)代產(chǎn)生的背景

最早提出“大數(shù)據(jù)”時(shí)代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對(duì)于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來。”大規(guī)模生產(chǎn)、分享和應(yīng)用海量數(shù)據(jù)的時(shí)代之所以能夠開啟,源于信息科技的進(jìn)步、互聯(lián)網(wǎng)與云計(jì)算技術(shù)和物聯(lián)網(wǎng)的發(fā)展。

(1)信息科技的進(jìn)步。信息處理、信息存儲(chǔ)和信息傳遞是信息科技的三個(gè)主要支撐,存儲(chǔ)設(shè)備性價(jià)比不斷提升、網(wǎng)絡(luò)帶寬的持續(xù)增加,為大數(shù)據(jù)的存儲(chǔ)和傳播提供了物質(zhì)基礎(chǔ)。

(2)互聯(lián)網(wǎng)與云計(jì)算技術(shù)。互聯(lián)網(wǎng)時(shí)代,電子商務(wù)、社交網(wǎng)絡(luò)和移動(dòng)通信產(chǎn)生了大量結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),以云計(jì)算為基礎(chǔ)的信息存儲(chǔ)、分享和挖掘手段,可以便宜、有效地將這些大量、高速、多變化的終端數(shù)據(jù)存儲(chǔ)下來,并隨時(shí)進(jìn)行分析與計(jì)算。互聯(lián)網(wǎng)領(lǐng)域的公司最早重視數(shù)據(jù)資產(chǎn)的價(jià)值,他們從大數(shù)據(jù)中淘金,并且引領(lǐng)著大數(shù)據(jù)的發(fā)展趨勢(shì)。

(3)物聯(lián)網(wǎng)的發(fā)展。眾所周知,物聯(lián)網(wǎng)時(shí)代所創(chuàng)造的數(shù)據(jù)不是互聯(lián)網(wǎng)時(shí)代所能比擬的,而且物聯(lián)網(wǎng)的數(shù)據(jù)是異構(gòu)的、多樣性的、非結(jié)構(gòu)和有噪聲的,最顯著的特點(diǎn)是是它的高增長(zhǎng)率。大數(shù)據(jù)是物聯(lián)網(wǎng)中的關(guān)鍵技術(shù),物聯(lián)網(wǎng)對(duì)大數(shù)據(jù)技術(shù)的要求更高,它的發(fā)展離不開大數(shù)據(jù)。

1.2 大數(shù)據(jù)與數(shù)據(jù)挖掘

Google、Amazon、Facebook、Twitter,這些稱霸全球互聯(lián)網(wǎng)的企業(yè),它們的成功都具備一個(gè)共同的因素,就是收集分析海量的各種類型的數(shù)據(jù),并能夠快速獲取影響未來的信息的能力。“購買了此商品的顧客還購買了這些商品”,這恐怕是世界上最廣為人知的一種商品推薦系統(tǒng)了,而創(chuàng)造出這個(gè)系統(tǒng)的正是Amazon。Amazon 通過分析商品的購買記錄、瀏覽歷史記錄等龐大的用戶行為歷史數(shù)據(jù),并與行為模式相似的其他用戶的歷史數(shù)據(jù)進(jìn)行對(duì)照,提供出最適合的商品推薦信息。Facebook 可以為用戶提供類似“也許你還認(rèn)識(shí)這些人”的提示,這種提示可以準(zhǔn)確到令人恐怖的程度,而這正是對(duì)龐大的數(shù)據(jù)進(jìn)行分析而得到的結(jié)果。這種以數(shù)據(jù)分析為核心的技術(shù)就是數(shù)據(jù)挖掘(data mining)。

從技術(shù)角度看,數(shù)據(jù)挖掘是從大量的、復(fù)雜的、不規(guī)則的、隨機(jī)的、模糊的數(shù)據(jù)中獲取隱含的、人們事先沒有發(fā)覺的、有潛在價(jià)值的信息和知識(shí)的過程。從商業(yè)角度來說,數(shù)據(jù)挖掘是從龐大的數(shù)據(jù)庫中抽取、轉(zhuǎn)換、分析一些潛在規(guī)律和價(jià)值,從中獲取輔助商業(yè)決策的關(guān)鍵信息和有用知識(shí)。大數(shù)據(jù)概念的提出,將為數(shù)據(jù)挖掘技術(shù)的發(fā)展和應(yīng)用帶來一個(gè)很大的機(jī)遇。

2 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘旨在從大數(shù)據(jù)中提取隱藏的預(yù)測(cè)性信息,用便于理解和觀察的方式反映給用戶,作為決策的依據(jù)。

2.1 數(shù)據(jù)挖掘原理

數(shù)據(jù)挖掘又稱為數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(Knowledge Diseoveryin Databases,KDD),是一個(gè)從數(shù)據(jù)庫或數(shù)據(jù)倉庫中發(fā)現(xiàn)并抽取隱含的、明顯未知的、具有潛在用處的信息的過程。數(shù)據(jù)挖掘一般流程主要包括三個(gè)階段:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果解釋和評(píng)價(jià)。在數(shù)據(jù)挖掘的處理過程中,數(shù)據(jù)挖掘分析方法是最為關(guān)鍵的。

(1)數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)準(zhǔn)備是從海量數(shù)據(jù)源得到數(shù)據(jù)挖掘所用的數(shù)據(jù),將數(shù)據(jù)集成到一起的過程。由于數(shù)據(jù)收集階段得到的數(shù)據(jù)可能有一定的污染,即數(shù)據(jù)可能存在不一致,或有缺失數(shù)據(jù)、臟數(shù)據(jù)的存在,因此需通過數(shù)據(jù)整理,對(duì)數(shù)據(jù)進(jìn)行清洗及預(yù)處理。

(2)數(shù)據(jù)挖掘。是數(shù)據(jù)挖掘中最關(guān)鍵的一步,使用智能的方法提取數(shù)據(jù)模式,例如決策樹、分類和聚類、關(guān)聯(lián)規(guī)則和神經(jīng)網(wǎng)絡(luò)等。首先決定要提取什么樣的模型,然后選取相應(yīng)的算法參數(shù),分析數(shù)據(jù)從而得到可能形成知識(shí)的模式模型。

(3)結(jié)果解釋和評(píng)價(jià)。數(shù)據(jù)挖掘后的結(jié)果需要轉(zhuǎn)換成用戶能夠理解的規(guī)則或模式,并根據(jù)其是否對(duì)決策問題具有實(shí)際意義進(jìn)行評(píng)價(jià)。

2.2 數(shù)據(jù)挖掘技術(shù)在營(yíng)銷中的應(yīng)用

無差別的大眾媒體營(yíng)銷已經(jīng)無法滿足零和的市場(chǎng)環(huán)境下的競(jìng)爭(zhēng)要求。精準(zhǔn)營(yíng)銷是企業(yè)現(xiàn)在及未來的發(fā)展方向,在精準(zhǔn)營(yíng)銷領(lǐng)域,最常用的數(shù)據(jù)挖掘分析方法包括分類、聚類和關(guān)聯(lián)三類。

(1)關(guān)聯(lián)規(guī)則。挖掘關(guān)聯(lián)規(guī)則就是發(fā)現(xiàn)存在于大量數(shù)據(jù)集中的關(guān)聯(lián)性或相關(guān)性,例如空間關(guān)聯(lián)挖掘出啤酒與尿布效應(yīng);時(shí)間關(guān)聯(lián)挖掘出孕嬰用品與家居裝修關(guān)系;時(shí)間關(guān)聯(lián)挖掘出調(diào)味品、紙巾與化妝品的消費(fèi)等。

此外,關(guān)聯(lián)規(guī)則發(fā)現(xiàn)也可用于序列模式發(fā)現(xiàn)。序列模式發(fā)現(xiàn)的側(cè)重點(diǎn)在于分析數(shù)據(jù)項(xiàng)集在時(shí)間上或序列上的前后(因果)規(guī)律,可以看作是一種特定的關(guān)聯(lián)規(guī)則。例如顧客在購買了打印機(jī)后在一段時(shí)間內(nèi)是否會(huì)購買墨盒。

(2)分類分析。分類是假定數(shù)據(jù)庫中的每個(gè)對(duì)象屬于一個(gè)預(yù)先給定的類,從而將數(shù)據(jù)庫中的數(shù)據(jù)分配到給定的類中。它屬于預(yù)測(cè)性模型,例如在銀行業(yè),事先定義用戶的信用狀況分為兩類:信用好和信用壞,對(duì)于一個(gè)信用狀態(tài)未知的用戶,如果需要確定其信用度,可以采用“決策樹”法構(gòu)建一個(gè)分類模型,決策樹方法著眼于從一組無次序、無規(guī)則的客戶數(shù)據(jù)庫中推理出決策樹表現(xiàn)形式的分類規(guī)則。決策樹的非葉子節(jié)點(diǎn)均是客戶的一些基本特征,葉子節(jié)點(diǎn)是客戶分類標(biāo)識(shí),由根節(jié)點(diǎn)至上而下,到每個(gè)葉子節(jié)點(diǎn),就生成了一條規(guī)則,由該決策樹可以得到很多規(guī)則,構(gòu)成了一個(gè)規(guī)則集合,從而進(jìn)行數(shù)據(jù)分析。

(3)聚類分析。聚類是將物理或抽象對(duì)象的集合進(jìn)行分組,然后組成為由類似或相似的對(duì)象組成的多個(gè)分類的分析過程,其目的就是通過相似的方法來收集數(shù)據(jù)分類。為品牌找客戶,回答品牌“誰來賣”是精準(zhǔn)營(yíng)銷首先要解決的問題,科學(xué)細(xì)分客戶是解決這一問題的有效手段。聚類可以將目標(biāo)客戶分成多個(gè)類,同一個(gè)類中的客戶有很大的相似性,表現(xiàn)在購買行為的高度一致,不同類間的客戶有很大的相異性,表現(xiàn)在購買行為的截然不同。

3 結(jié)語

大數(shù)據(jù)時(shí)代背景下“數(shù)據(jù)成為資產(chǎn)”,數(shù)據(jù)挖掘技術(shù)作為支撐精準(zhǔn)營(yíng)銷的重要手段,將它應(yīng)用于營(yíng)銷行業(yè)的決策中,不僅拓展了數(shù)據(jù)挖掘技術(shù)的應(yīng)用范圍,而且大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘技術(shù)可以幫助企業(yè)獲得突破性回報(bào)。

參考文獻(xiàn)

[1]維克托?邁爾―舍恩伯格;肯尼思?庫克耶.大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革[M].周濤譯.杭州:浙江人民出版社,2013.

[2]王偉玲.大數(shù)據(jù)產(chǎn)業(yè)的戰(zhàn)略價(jià)值研究與思考.技術(shù)經(jīng)濟(jì)與管理研究[J],2015(1).

篇(9)

【關(guān)鍵詞】大數(shù)據(jù) 數(shù)據(jù)挖掘 分類 聚類

大數(shù)據(jù)(Big Data),也稱為海量數(shù)據(jù),是隨著計(jì)算機(jī)技術(shù)及互聯(lián)網(wǎng)技術(shù)的高速發(fā)展而產(chǎn)生的獨(dú)特?cái)?shù)據(jù)現(xiàn)象。現(xiàn)代社會(huì)正以不可想象的速度產(chǎn)生大量數(shù)據(jù),如網(wǎng)絡(luò)訪問,微博微信,視頻圖片,手機(jī)通信,網(wǎng)上購物……等等都在不斷產(chǎn)生大量的數(shù)據(jù)。如何更好的利用和分析產(chǎn)生的數(shù)據(jù),從而為人類使用,這是非常重要的科學(xué)研究。在大數(shù)據(jù)時(shí)代,更好的利用云計(jì)算以及數(shù)據(jù)挖掘,顯得尤為重要。

1 大數(shù)據(jù)的概念

大數(shù)據(jù),是指無法在一定時(shí)間內(nèi)用常規(guī)機(jī)器和軟硬件對(duì)其進(jìn)行感知、獲取、管理、處理和服務(wù)的數(shù)據(jù)集合。IBM將大數(shù)據(jù)的特點(diǎn)總結(jié)為三個(gè)V,即大量化(Volume)、多樣化(Variety)和快速化(Velocity)。

即產(chǎn)生的數(shù)據(jù)容量大。數(shù)據(jù)主要來源如:E-mail、搜索引擎的搜索、圖片、音頻、視頻、社交網(wǎng)站、微博微信、各種應(yīng)用軟件和app、電子商務(wù)以及電子通信等等。在實(shí)際生活中,電子商務(wù)的購物平臺(tái)數(shù)量和種類越來越多,社交網(wǎng)站的典型facebook的數(shù)據(jù)量大的驚人,以PB計(jì)量都不夠。數(shù)據(jù)存儲(chǔ)的單位不僅僅是MB、GB等,而是使用了表示更大容量的TB、PB、EB、ZB和YB等,每個(gè)單位的關(guān)系為后者是前者的1024倍,如1PB=1024TB。同時(shí)大數(shù)據(jù)的增長(zhǎng)速度是越來越快,如手機(jī)相機(jī)的像素?cái)?shù)隨著新款手機(jī)的出現(xiàn)而成倍的增長(zhǎng)。

1.2 多樣化

從數(shù)據(jù)組織形式的角度將數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù),具有一定的規(guī)律,可以使用二維表結(jié)構(gòu)來表示,并存儲(chǔ)在數(shù)據(jù)庫中,如高校的教務(wù)管理系統(tǒng)的數(shù)據(jù)、銀行交易產(chǎn)生的數(shù)據(jù)。而非結(jié)構(gòu)化數(shù)據(jù)是無法通過預(yù)先定義的數(shù)據(jù)模型表達(dá)并存儲(chǔ)在數(shù)據(jù)庫中的數(shù)據(jù),如聲音、視頻和圖片等等。當(dāng)前非結(jié)構(gòu)化數(shù)據(jù)的增長(zhǎng)速度遠(yuǎn)遠(yuǎn)超過結(jié)構(gòu)化數(shù)據(jù)。

1.3 快速化

在當(dāng)前商業(yè)競(jìng)爭(zhēng)激烈的時(shí)代,對(duì)實(shí)時(shí)的數(shù)據(jù)進(jìn)行分析和處理,挖掘有用的數(shù)據(jù)信息,并用于商業(yè)運(yùn)作,對(duì)于企業(yè)和組織來說非常重要。如現(xiàn)在網(wǎng)絡(luò)購物會(huì)依據(jù)多數(shù)人的購物組合,分析出大部分人在購買一件物品的同時(shí)會(huì)同時(shí)購買其他的物品,從而在購物選擇時(shí)給予方便,提高網(wǎng)購的效率,提高效益。

隨著互聯(lián)網(wǎng)技術(shù)和計(jì)算機(jī)技術(shù)的快速發(fā)展,在產(chǎn)生大數(shù)據(jù)的同時(shí),人們要能夠?qū)@些數(shù)據(jù)加以利用,得到有用的信息,才是最重要的。為了讓海量規(guī)模的數(shù)據(jù)能夠真正發(fā)揮巨大的作用,需要將這些數(shù)據(jù)轉(zhuǎn)換為有用的信息和知識(shí),即從傳統(tǒng)的數(shù)據(jù)統(tǒng)計(jì)向數(shù)據(jù)挖掘和分析進(jìn)行轉(zhuǎn)換。比如沃爾瑪超市能夠從男人購物時(shí)買啤酒的同時(shí)會(huì)購買小孩的紙尿褲這種關(guān)聯(lián),并在實(shí)際物品擺放時(shí)將這兩種物品放置在一起,方便用戶購物。

2 數(shù)據(jù)挖掘

隨著信息技術(shù)應(yīng)用的廣泛,大量的數(shù)據(jù)產(chǎn)生并存儲(chǔ)各個(gè)領(lǐng)域的信息系統(tǒng)中,數(shù)據(jù)呈現(xiàn)了爆炸式的增長(zhǎng)。數(shù)據(jù)挖掘在這種“數(shù)據(jù)爆炸,知識(shí)匱乏”的情況下出現(xiàn)的。數(shù)據(jù)挖掘(Data mining)是一個(gè)多學(xué)科交叉的研究領(lǐng)域,它融合了數(shù)據(jù)庫技術(shù)、機(jī)器學(xué)習(xí)、人工智能、知識(shí)工程和統(tǒng)計(jì)學(xué)等學(xué)科領(lǐng)域。數(shù)據(jù)挖掘在很多領(lǐng)域尤其是電信、銀行、交通、保險(xiǎn)和零售等商業(yè)領(lǐng)域得到廣泛的應(yīng)用。

數(shù)據(jù)挖掘也稱為從數(shù)據(jù)中發(fā)現(xiàn)知識(shí),具體來講就是從大規(guī)模海量數(shù)據(jù)中抽取人們所感興趣的非平凡的、隱含的、事先未知的和具有潛在用途的模式或者知識(shí)。

3 數(shù)據(jù)挖掘的主要研究?jī)?nèi)容

數(shù)據(jù)挖掘的任務(wù)是發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式,其模式分為兩大類:描述型模式和預(yù)測(cè)型模式。描述型模式是對(duì)當(dāng)前數(shù)據(jù)中存在的事實(shí)做規(guī)范描述,刻畫當(dāng)前數(shù)據(jù)的一般特性。預(yù)測(cè)型模式則是以時(shí)間為主要關(guān)鍵參數(shù),對(duì)于時(shí)間序列型數(shù)據(jù),根據(jù)其歷史和當(dāng)前的值去預(yù)測(cè)其未來的值。常使用的算法有:

3.1 聚類分析

聚類是將數(shù)據(jù)劃分成群組的過程,根據(jù)數(shù)量本身的自然分布性質(zhì),數(shù)據(jù)變量之間存在的程度不同的相似性(親疏關(guān)系),按照一定的準(zhǔn)則將最相似的數(shù)據(jù)聚集成簇。主要包括劃分聚類算法,層次聚類算法和密度聚類算法等。經(jīng)典算法有K-Means、K-Medoids。

3.2 特性選擇

特性選擇是指為特定的應(yīng)用在不失去數(shù)據(jù)原有價(jià)值的基礎(chǔ)上選擇最小的屬性子集,去除不相關(guān)和冗余的屬性。特性選擇用于在建立分類模型前,或者預(yù)測(cè)模型之前,對(duì)原始數(shù)據(jù)庫進(jìn)行預(yù)處理。常用的算法有最小描述長(zhǎng)度法。

3.3 特征抽取

特征抽取式數(shù)據(jù)挖掘技術(shù)的常用方法,是一個(gè)屬性降維的過程,實(shí)際為變換屬性,經(jīng)變換了的屬性或者特性,是原來屬性集的線性合并,出現(xiàn)更小更精的一組屬性。常用算法如主成分分析法、因子分析法和非負(fù)矩陣因子法等。

3.4 關(guān)聯(lián)規(guī)則

關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘領(lǐng)域中研究最為廣泛和和活躍的方法之一。最初的研究動(dòng)機(jī)是針對(duì)購物籃分析問題提出的,目的是為了解決發(fā)現(xiàn)交易數(shù)據(jù)庫中不同商品之間的聯(lián)系規(guī)則。關(guān)聯(lián)規(guī)則是指大量數(shù)據(jù)中項(xiàng)集之間的有趣關(guān)聯(lián)或相關(guān)關(guān)系。常用的算法有Apriori算法。

3.5 分類和預(yù)測(cè)

分類是應(yīng)用已知的一些屬性數(shù)據(jù)去推測(cè)一個(gè)未知的離散型的屬性數(shù)據(jù),而這個(gè)被推測(cè)的屬性數(shù)據(jù)的可取值是預(yù)先定義的。要很好的實(shí)現(xiàn)推測(cè),需要事先定義一個(gè)分類模型。可用于分類的算法有決策樹、樸素貝葉斯分類、神經(jīng)網(wǎng)絡(luò)、logistic回歸和支持向量機(jī)等。

4 結(jié)論

隨著時(shí)代的進(jìn)步,數(shù)據(jù)也發(fā)生變化,具有各種各樣的復(fù)雜形式。很多研究機(jī)構(gòu)和個(gè)人在對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘的同時(shí),也展開了對(duì)空間數(shù)據(jù)、多媒體數(shù)據(jù)、時(shí)序數(shù)據(jù)和序列數(shù)據(jù)、文本和Web等數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘和分析。同時(shí)大數(shù)據(jù)的發(fā)展促進(jìn)了云計(jì)算的產(chǎn)生,基于云計(jì)算的數(shù)據(jù)挖掘也在迅速崛起。

參考文獻(xiàn)

[1]劉軍.大數(shù)據(jù)處理[M].北京:人民郵電出版社,2013(09).

[2]王元卓等.網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào),2013(06).

[3]申彥.大規(guī)模數(shù)據(jù)集高效數(shù)據(jù)挖掘算法研究[D].江蘇大學(xué),2013(06).

[4](加)洪松林.數(shù)據(jù)挖掘技術(shù)與工程實(shí)踐[M].北京:機(jī)械工業(yè)出版社,2014.

[5]賀瑤等.基于云計(jì)算的海量數(shù)據(jù)挖掘研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013(02).

作者簡(jiǎn)介

許凡(1996-),男,江蘇省南京市人。現(xiàn)就讀三江學(xué)院計(jì)算機(jī)科學(xué)與工程學(xué)院計(jì)算機(jī)軟件工程專業(yè)本科。

篇(10)

中圖分類號(hào):G642文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1003-2851(2009)12-0174-01

近年來,數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是存在大量數(shù)據(jù),可以廣泛使用,并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識(shí)。數(shù)據(jù)挖掘是面向發(fā)現(xiàn)的數(shù)據(jù)分析技術(shù),通過對(duì)大型的數(shù)據(jù)集進(jìn)行探查。可以發(fā)現(xiàn)有用的知識(shí),從而為決策支持提供有力的依據(jù)。

一、 Web數(shù)據(jù)挖掘定義及分類

Web數(shù)據(jù)挖掘(Web Date Mining),簡(jiǎn)稱Web挖掘,是數(shù)據(jù)挖掘技術(shù)在Web環(huán)境下的應(yīng)用,是從數(shù)據(jù)挖掘、計(jì)算機(jī)技術(shù)、信息科學(xué)等多個(gè)領(lǐng)域進(jìn)行的一項(xiàng)技術(shù)。

Web 數(shù)據(jù)挖掘的分類根據(jù)數(shù)據(jù)挖掘?qū)ο蟮牟煌梢詫eb數(shù)據(jù)挖掘分為Web 內(nèi)容挖掘、Web 結(jié)構(gòu)挖掘和Web 訪問信息挖掘三類(見圖1)。Web 內(nèi)容挖掘就是指從Web 的文檔中發(fā)現(xiàn)提取有用信息; Web 結(jié)構(gòu)挖掘是指對(duì)html 頁面間的鏈接結(jié)構(gòu)進(jìn)行挖掘; Web 訪問信息挖掘是從網(wǎng)絡(luò)訪問者的交談或活動(dòng)中提取信息。

二、 Web數(shù)據(jù)挖掘的過程

數(shù)據(jù)挖掘的過程可以分為6個(gè)步驟:

(一)理解業(yè)務(wù):從商業(yè)的角度理解項(xiàng)目目標(biāo)和需求,將其轉(zhuǎn)換成一種數(shù)據(jù)挖掘的問題定義,設(shè)計(jì)出達(dá)到目標(biāo)的一個(gè)初步計(jì)劃。

(二)理解數(shù)據(jù):收集初步的數(shù)據(jù),進(jìn)行各種熟悉數(shù)據(jù)的活動(dòng)。包括數(shù)據(jù)描述,數(shù)據(jù)探索和數(shù)據(jù)質(zhì)量驗(yàn)證等。

(三)準(zhǔn)備數(shù)據(jù):將最初的原始數(shù)據(jù)構(gòu)造成最終適合建模工具處理的數(shù)據(jù)集。包括表、記錄和屬性的選擇,數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)清理等。

(四)建模:選擇和應(yīng)用各種建模技術(shù),并對(duì)其參數(shù)進(jìn)行優(yōu)化。

(五)模型評(píng)估:對(duì)模型進(jìn)行較為徹底的評(píng)價(jià),并檢查構(gòu)建模型的每個(gè)步驟,確認(rèn)其是否真正實(shí)現(xiàn)了預(yù)定的商業(yè)目的。

三、Web 數(shù)據(jù)挖掘的常用工具

Web 數(shù)據(jù)挖掘工具如果按用途分, 可分為: Web 文本信息挖掘工具、用戶訪問模式挖掘工具或用戶導(dǎo)航行為挖掘工具和綜合性的web分析工具。Web 文本信息挖掘工具主要完成兩方面的功能: 信息檢索和對(duì)文本的分析。IBM 公司的產(chǎn)品Intelligent Miner 中的web 挖掘工具Intelligent Miner for Text 就是比較好的文本信息挖掘工具。用戶模式挖掘工具通常實(shí)現(xiàn)的方法是對(duì)Sever Logs、Error Logs 和Cookie Logs 等日志文件分析挖掘出用戶訪問行為、頻度和內(nèi)容等信息, 從而找出一定的模式和規(guī)則。由Sstphen Tumer 博士編制的免費(fèi)個(gè)人軟件Analog 是一個(gè)用來分析Server Logs 的工具。

四、數(shù)據(jù)挖掘的應(yīng)用現(xiàn)狀

數(shù)據(jù)挖掘是一個(gè)新興的邊緣學(xué)科,它匯集了來自機(jī)器學(xué)習(xí)、模式識(shí)別、數(shù)據(jù)庫、統(tǒng)計(jì)學(xué)、人工智能以及管理信息系統(tǒng)等各學(xué)科的成果。多學(xué)科的相互交融和相互促進(jìn),使得這一新學(xué)科得以蓬勃發(fā)展,而且已初具規(guī)模。在美國國家科學(xué)基金會(huì)(NSF)的數(shù)據(jù)庫研究項(xiàng)目中,KDD被列為90年代最有價(jià)值的研究項(xiàng)目。人工智能研究領(lǐng)域的科學(xué)家也普遍認(rèn)為,下一個(gè)人工智能應(yīng)用的重要課題之一,將是以機(jī)器學(xué)習(xí)算法為主要工具的大規(guī)模的數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)。盡管數(shù)據(jù)挖掘還是一個(gè)很新的研究課題,但它所固有的為企業(yè)創(chuàng)造巨大經(jīng)濟(jì)效益的潛力,已使其很快有了許多成功的應(yīng)用,具有代表性的應(yīng)用領(lǐng)域有市場(chǎng)預(yù)測(cè)、投資、制造業(yè)、銀行、通訊等。

美國鋼鐵公司和神戶鋼鐵公司利用基于數(shù)據(jù)挖掘技術(shù)的ISPA系統(tǒng),研究分析產(chǎn)品性能規(guī)律和進(jìn)行質(zhì)量控制,取得了顯著效果。通用電器公司(GE)與法國飛機(jī)發(fā)動(dòng)機(jī)制造公司(sNEcMA),利用數(shù)據(jù)挖掘技術(shù)研制了CASSIOP.EE質(zhì)量控制系統(tǒng),被三家歐洲航空公司用于診斷和預(yù)測(cè)渡音737的故障,帶來了可觀的經(jīng)濟(jì)效益。該系統(tǒng)于1996年獲歐洲一等創(chuàng)造性應(yīng)用獎(jiǎng)。

上一篇: 工時(shí)統(tǒng)計(jì)員工作總結(jié) 下一篇: 特大防汛期間工作總結(jié)
相關(guān)精選
相關(guān)期刊
久久久噜噜噜久久中文,精品五月精品婷婷,久久精品国产自清天天线,久久国产一区视频
色鬼777久久免费观看 | 在线观看亚洲一区动漫 | 又大又粗又猛免费视频久久 | 欧美激情一区在线观看 | 日本少妇精品亚洲第一区 | 久草视频免费在线观看 |