時間:2023-02-27 11:09:27
序論:好文章的創(chuàng)作是一個不斷探索和完善的過程,我們?yōu)槟扑]十篇數(shù)據(jù)挖掘技術分析論文范例,希望它們能助您一臂之力,提升您的閱讀品質(zhì),帶來更深刻的閱讀感受。
二、使用Weka進行關聯(lián)挖掘
Weka的全名是懷卡托智能分析環(huán)境(WaikatoEnviron-mentforKnowledgeAnalysis),是一款免費的、非商業(yè)化的、基于JAVA環(huán)境下開源的機器學習以及數(shù)據(jù)挖掘軟件[2]。它包含了許多數(shù)據(jù)挖掘的算法,是目前最完備的數(shù)據(jù)挖掘軟件之一。Weka軟件提供了Explorer、Experimenter、Knowledge-Flow、SimpleCLI四種模塊[2]。其中Explorer是用來探索數(shù)據(jù)環(huán)境的,Experimenter是對各種實驗計劃進行數(shù)據(jù)測試,KnowledgeFlow和Explorer類似,但該模塊通過其特殊的接口可以讓使用者通過拖動的形式去創(chuàng)建實驗方案,Simple-CLI為簡單的命令行界面。以下數(shù)據(jù)挖掘任務主要用Ex-plorer模塊來進行。
(一)數(shù)據(jù)預處理
數(shù)據(jù)挖掘所需要的所有數(shù)據(jù)可以由系統(tǒng)排序模塊生成并進行下載。這里我們下載近兩年的教師科研信息。為了使論文總分、學術著作總分、科研獲獎總分、科研立項總分、科研總得分更有利于數(shù)據(jù)挖掘計算,在這里我們將以上得分分別確定分類屬性值。
(二)數(shù)據(jù)載入
點擊Explorer進入后有四種載入數(shù)據(jù)的方式,這里采用第一種Openfile形式。由于Weka所支持的標準數(shù)據(jù)格式為ARFF,我們將處理好的xls格式另存為csv,在weka中找到這個文件并重新保存為arff文件格式來實現(xiàn)數(shù)據(jù)的載入。由于所載入的數(shù)據(jù)噪聲比較多,這里應根據(jù)數(shù)據(jù)挖掘任務對數(shù)據(jù)表中與本次數(shù)據(jù)任務不相關的屬性進行移除,只將學歷、職稱、論文等級、學術著作等級、科研獲獎等級、科研立項等級、科研總分等級留下。
(三)關聯(lián)挖掘與結果分析
WeakExplorer界面中提供了數(shù)據(jù)挖掘多種算法,在這里我們選擇“Associate”標簽下的Apriori算法。之后將“l(fā)owerBoundMinSupprot”(最小支持度)參數(shù)值設為0.1,將“upperBoundMinSupprot”(最大支持度)參數(shù)值設為1,在“metiricType”的參數(shù)值選項中選擇lift選項,將“minMetric”參數(shù)值設為1.1,將“numRules”(數(shù)據(jù)集數(shù))參數(shù)值設為10,其它選項保存默認值,這樣就可以挖掘出支持度在10%到100%之間并且lift值超過1.1且排名前10名的關聯(lián)規(guī)則。其挖掘參數(shù)信息和關聯(lián)挖掘的部分結果。
三、挖掘結果與應用
以上是針對教師基本情況和科研各項總分進行的反復的數(shù)據(jù)挖掘工作,從挖掘結果中找到最佳模式進行匯總。以下列出了幾項作為參考的關聯(lián)數(shù)據(jù)挖掘結果。
1、科研立項得分與論文、科研總得分關聯(lián)度高,即科研立項為A級的論文也一定是A。這與實際也是相符的,因為科研立項得A的教師應該是主持了省級或是國家級的立項的同時也參與了其他教師的科研立項,在課題研究的過程中一定會有國家級論文或者省級論文進行發(fā)表來支撐立項,所以這類教師的論文得分也會很高。針對這樣的結果,在今后的科研工作中,科研處要鼓勵和幫助教師搞科研,為教師的科研工作提供精神上的支持和物質(zhì)上的幫助,這樣在很大程度上能夠帶動整個學校科研工作的進展。
中圖分類號:G642.0 文獻標志碼:A 文章編號:1674-9324(2012)12-0218-02
一、背景
“數(shù)據(jù)倉庫與數(shù)據(jù)挖掘”是國內(nèi)外高等院校一門重要的課程,是國家基礎教育較為重視的一門學科,受到不同專業(yè)學生的喜愛。其教學目標是提高學生的數(shù)據(jù)分析水平和能力,除了教授學生數(shù)據(jù)分析的常見方法之外,還將引導學生如何對實際的問題進行建模,如何對模型進行簡化和求解。利用實例教學等方法,可以很好地將數(shù)據(jù)挖掘中的抽象概念、模型、公式等闡述清楚,讓學生易于理解和接受。近年來,數(shù)據(jù)挖掘技術在醫(yī)學領域中的應用越來越廣泛。在疾病診斷、治療、器官移植、基因研究、圖像分析、康復、藥物開發(fā)、科學研究等方面都獲得了可喜的成果。運用各種數(shù)據(jù)挖掘技術了解各種疾病之間的相互關系、各種疾病的發(fā)展規(guī)律,總結各種治療方案的治療效果,以及對疾病的診斷、治療和醫(yī)學研究都是非常有價值的。因此,我們學院也把這門課程作為計算機專業(yè)及信息管理與信息系統(tǒng)專業(yè)的必修課。把計算機與醫(yī)學結合,使得學生的培養(yǎng)方案全面包括了計算機與醫(yī)學的知識點。由于該課程原本屬于研究生階段開設的專業(yè)課程,教材也大多側(cè)重于介紹體系結構、算法原理、效率分析與改進等理論知識,其中所涉及的內(nèi)容大多比較深,許多知識都超出了本科生的接受范圍,此外,教材對相關理論在實際應用方面的說明也比較少,不利于安排實驗教學。因此要實現(xiàn)“數(shù)據(jù)倉庫與數(shù)據(jù)挖掘”課程的教學目標,必須在理論教學和實驗教學環(huán)節(jié)綜合考慮學時多少、教學條件以及學生的接受情況等因素,靈活地加以選擇安排。
二、存在的問題
主要包括以下幾方面:①課堂上以教師講、學生聽的教學形式為主,學生學習處于被動狀態(tài),他們的創(chuàng)造性因此被嚴重扼殺;②教師對專業(yè)課程體系和學生的知識體系不夠重視,對課程體系的講解不到位,造成學生在學習時課程之間聯(lián)系不上,知識銜接不好,對知識的運用和融會貫通比較差;③實驗與理論脫節(jié)。“數(shù)據(jù)倉庫與數(shù)據(jù)挖掘”課程理論講授的算法與實驗軟件中的算法有很大差距,使得學生難以理解。比如對于理論上講授的關聯(lián)規(guī)則算法,實驗中使用SQL SERVER 2005中的商務智能工具做實驗,學生發(fā)現(xiàn)有很多參數(shù)與理論上講授的有很大不同;④醫(yī)學院校的學生對純粹計算機理論知識接受困難。由于該門課程是交叉學科,涉及計算機、數(shù)學、統(tǒng)計學等知識,如果學生的其他學科學得不好,就會對該課程的學習產(chǎn)生障礙;⑤教師講授沒有把理論課程結合到實際應用中。有很多學生不知道學習這門課的意義,老師沒有很好引導學生,激活他們的學習熱情。
三、目標驅(qū)動的教學框架
對于以上問題,本文提出了一個新的教學體系,設計了一套基于目標驅(qū)動的教學框架,把教師與學生緊密聯(lián)系起來,從教學大綱的設置,教材的選擇,理論教學,實驗教學,課程設計及畢業(yè)論文,全面引導學生從初步了解到深入學習的過程。對于我們學校的實際情況,有兩個專業(yè)的學生要學習這門課程。一個是計算機科學與技術專業(yè),一個是信息管理與信息系統(tǒng)專業(yè)。對于兩個不同的專業(yè),我們設置不同的教學大綱。比如對于計算機專業(yè)的學生,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘教學總時數(shù)為72學時,其中理論為54學時,實驗為36學時。
1.理論教學。對于信息管理與信息系統(tǒng)專業(yè)的學生,我們可以設置如下的教學計劃,可分為三個主要部分。我們教材選擇韓家煒的《數(shù)據(jù)挖掘概念與技術》,第一部分:第一至四章為數(shù)據(jù)挖掘的基礎知識,包括數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的基本概念和相關知識介紹;第二部分:第五、六章介紹了數(shù)據(jù)挖掘的算法和工具;第三部分:第七章是數(shù)據(jù)挖掘的聚類分析的實際應用。本課程是信息管理與信息系統(tǒng)專業(yè)本科生專業(yè)必修課。通過該課程的學習,要求學生掌握數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的基本概念,了解基本方法和應用背景。掌握數(shù)據(jù)倉庫的設計和建立,掌握數(shù)據(jù)挖掘的主要步驟和實現(xiàn)方法,數(shù)據(jù)挖掘的常用算法,實現(xiàn)數(shù)據(jù)挖掘的具體操作。理論學時的安排,第一章緒論(6學時);第二章數(shù)據(jù)倉庫(4學時);第三章數(shù)據(jù)預處理(8學時);第四章數(shù)據(jù)挖掘發(fā)現(xiàn)知識的類型(8學時);第五章數(shù)據(jù)挖掘中常用算法(12學時);第六章數(shù)據(jù)挖掘的工具及其應用(8學時);第七章數(shù)據(jù)挖掘應用實例(8學時)。
2.實驗教學。本課程配合理論教學,通過系統(tǒng)的實踐教學鍛煉,著重培養(yǎng)學生的獨立分析問題和解決問題的能力,熟練掌握數(shù)據(jù)倉庫的設計和建立以及各類數(shù)據(jù)挖掘方法,使學生具有一定的數(shù)據(jù)分析和挖掘能力,能在認識基礎上,提出有效的數(shù)據(jù)挖掘方法,依據(jù)實際例子,寫出解決方案。學生應在實驗課前明確實驗的目的和要求,然后針對相關問題寫出解決方案。實驗時對實際方案的運行結果應能進行分析并提出改進方法,最終寫出實驗報告。通過實驗教學應達到以下基本要求:①理解數(shù)據(jù)倉庫的工作機理及其構建過程;②掌握典型的數(shù)據(jù)倉庫系統(tǒng)及其開發(fā)工具的使用;③理解數(shù)據(jù)挖掘技術的工作原理與流程;④掌握典型數(shù)據(jù)挖掘工具的使用;⑤掌握幾種典型的數(shù)據(jù)挖掘算法;⑥掌握使用SQL SERVER 2000和SPSS工具解決實際問題。實驗成績包括:實驗教學過程成績、實驗報告成績,各占50%。實驗過程表現(xiàn)成績包括:學習態(tài)度是否認真、實驗操作是否正確規(guī)范、基本技能掌握程度是否具有創(chuàng)新意識等方面。實驗報告成績包括:實驗報告格式是否正確、原理是否論述清楚、實驗結果分析討論是否符合邏輯,報告字跡是否清楚等方面。
3.課程設計。理論課和實驗課接近結束時,我們把最后三周作為本門課程的課程設計。課程設計的目的是讓學生進一步深刻理解所學知識。由于本門課程很多算法不容易理解,如何讓學生把所學知識結合到醫(yī)學應用中是課程設計的關鍵。比如我們對信息管理與信息系統(tǒng)專業(yè)的學生課程設計,要求學生每人選擇一個老師給定的題目,課程設計有詳細的要求,比如題目“數(shù)據(jù)挖掘在醫(yī)學診斷中的應用”要求學生能把本門課程相關的算法結合使用,最后給出詳細的分析。通過課程設計,我們發(fā)現(xiàn),學生對本門課程更有興趣。
4.畢業(yè)論文。我們把課程一般開設在大三的下學期,也就是說學生學完這門課程后,就做了該門課的課程設計,使得學生對數(shù)據(jù)挖掘相關知識有了比較深刻的認識。這樣,我們可以引導學生畢業(yè)論文的選擇。畢業(yè)論文畢竟是反映學生大學四年所學知識,也對他們將來就業(yè)起到提前培訓的作用。把理論結合實踐,老師對學生的引導也十分重要。
我們根據(jù)醫(yī)學院校的特征,提出了一套目標驅(qū)動的教學理念,從學生認識這門課程到學生理論課的學習,實驗課的學習,課程設計及畢業(yè)論文的完成,在老師的指導下,使用我們的考核體系,可提高學生對所學課程的興趣。
企業(yè)管理中客戶關系的管理必不可少,并且良好的管理有利于企業(yè)發(fā)展,有利于企業(yè)獲取更大的財富,有利于企業(yè)實現(xiàn)自己的價值,所以保障對企業(yè)客戶關系的管理。數(shù)據(jù)挖掘技術就是一個可以幫助企業(yè)對客戶關系進行有效的管理的工具。
一、數(shù)據(jù)挖掘和客戶關系管理含義
數(shù)據(jù)挖掘技術(Data Mining可以簡稱為DM),簡單來說,就是一種把隱藏在大型數(shù)據(jù)庫或者數(shù)據(jù)倉庫中所需要的有用信息提取出來的新技術,這是一個對數(shù)據(jù)庫進行研究的非常有價值的領域。數(shù)據(jù)挖掘技術可以幫助用戶從數(shù)據(jù)庫中準確的提取出有用的商業(yè)信息,為用戶在進行決策時提供重要的支持。
客戶關系管理(Customer Relationship Management可以簡稱為CRM),也有人稱之為“顧客關系管理”,關于客戶關系管理的定義,目前有兩種說法:一,最早的Gartner Group定義為一種商業(yè)策略,就是把客戶進行分類,并依據(jù)分類情況來對企業(yè)的資源進行有效的組織,進而企業(yè)的業(yè)務流程實施以及經(jīng)營活動都要以客戶為核心來進行,以此來提高企業(yè)的盈利能力以及客戶滿意度,取得最大利潤;二、是由CRMguru.com給出的定義,客戶關系管理就是一個在企業(yè)的營銷、銷售以及服務的業(yè)務范圍內(nèi),把企業(yè)現(xiàn)有的客戶以及潛在客戶,還有業(yè)務伙伴多渠道進行管理的過程,或者說技術。
二、數(shù)據(jù)挖掘在客戶關系管理中的應用
隨著社會經(jīng)濟的不斷發(fā)展,市場競爭力也在逐步的增大,商家想要獲得最好的利益,就必須對市場的變化迅速的做出反應,能夠引起市場變化的重要因素就是客戶需求的變化,也就是說,企業(yè)必須集中注意力,觀察客戶需求的每一變化,并把這些資料收集在一起,作為企業(yè)發(fā)展的寶貴資源進行管理。在企業(yè)管理客戶信息的過程中,就需要應用到了數(shù)據(jù)挖掘技術。
數(shù)據(jù)挖掘技術在客戶關系管理中的應用過程中,主要方法有:神經(jīng)網(wǎng)絡法、遺傳算法、決策樹法、粗糙決算法以及可視化技術、K—最近鄰技術等,每個公司的客戶關系不同、需求也不同,所以要用到的方法也不同。
數(shù)據(jù)挖掘技術主要應用于客戶關系管理中的這幾個方面:(1)挖掘新客戶,數(shù)據(jù)挖掘技術可以對現(xiàn)有的客戶信息和市場環(huán)境進行統(tǒng)計總結以及歸納,準確的確定潛在客戶以及市場目標。因為數(shù)據(jù)挖掘技術具有統(tǒng)計、聚類和關聯(lián)的作用,比如說,數(shù)據(jù)挖掘技術在數(shù)據(jù)庫中發(fā)現(xiàn)了這樣一個信息“某客戶在購買A商品之后,過了一段時間又購買了B商品,最后還購買了C商品”那么數(shù)據(jù)挖掘技術就會通過次序關聯(lián),把這個信息形成“A—B—C”的行為模式。(2)可以保持優(yōu)質(zhì)客戶。現(xiàn)在社會競爭相當激烈,企業(yè)客戶更是企業(yè)發(fā)展的重要因素,優(yōu)質(zhì)客戶對每個企業(yè)來說就更加的重要。數(shù)據(jù)挖掘技術可以對數(shù)據(jù)庫中的流失客戶信息進行分析,并且對流失客戶的特征進行準確的描述,然后利用關聯(lián)、近鄰的方式對整個數(shù)據(jù)庫中的消費客戶信息進行分析,分析出容易流失的客戶,隨后就需要采取相應的措施來減少這些客戶的流失,尤其是那些可能流失的優(yōu)質(zhì)客戶,更要采取有力的措施來進行挽留。(3)可以提升客戶價值。目前提升現(xiàn)有客戶的價值的方式有兩個:一是提供特色服務或者產(chǎn)品;二是銷售新產(chǎn)品或者服務。想要準確的提升客戶價值,就需要數(shù)據(jù)挖掘技術的幫助了,他可以把之前的客戶信息研究分析,并依據(jù)新產(chǎn)品或者服務的特征,發(fā)現(xiàn)和客戶的已購買產(chǎn)品之間的關聯(lián),因而準確的找到具有最大購買趨勢的客戶。
三、加強客戶關系管理中數(shù)據(jù)挖掘的意義
應用數(shù)據(jù)挖掘技術對客戶關系進行管理,可以有效的提高企業(yè)的核心競爭力,現(xiàn)代社會的激烈競爭,也就是對客戶的競爭,數(shù)據(jù)挖掘技術對企業(yè)的客戶關系進行詳細的分析,并為企業(yè)提供有價值的商業(yè)信息,為企業(yè)的重大決策提供了重要的參考依據(jù),進而有力的提高了企業(yè)的核心競爭力;可以有力的增強企業(yè)的執(zhí)行力,利用信息技術對客戶關系進行管理,降低成本,并簡化執(zhí)行任務,有效的實現(xiàn)了資源共享,大力的提高了企業(yè)的自動化水平,企業(yè)職工的執(zhí)行能力也進一步得到了提高,也就是增強了企業(yè)的執(zhí)行力[3];可以為企業(yè)的下一步戰(zhàn)略發(fā)展提供幫助,數(shù)據(jù)挖掘技術對現(xiàn)今的市場環(huán)境進行分析,可以預測到每個業(yè)務的發(fā)展狀態(tài),以及每個業(yè)務與發(fā)生過的商業(yè)行為之間的關系,有了這些信息,可以準確的制定企業(yè)未來的發(fā)展戰(zhàn)略,并且可以制定與市場環(huán)境相適應的營銷策略。
綜上所述,目前數(shù)據(jù)挖掘技術是企業(yè)進行客戶關系管理的最有效的工具,準確的掌握了客戶信息,就是準確的把握了市場需求,可以為企業(yè)制定完全適應于市場的發(fā)展方向。數(shù)據(jù)挖掘技術的關鍵作用就是找出潛在客戶,保留忠誠客戶,并利用企業(yè)有限的資源,對這些客戶提供最好的服務,促進企業(yè)的不斷發(fā)展。
參考文獻:
【中圖分類號】R255.2 【文獻標識碼】A 【文章編號】1672-3783(2012)05-0093-01
1 引言
辨證是中醫(yī)學的特點與優(yōu)勢之一,也是中醫(yī)藥取得療效的前提。中醫(yī)是以傳承性為主的實踐醫(yī)學,受生產(chǎn)技術水平的影響,前人在辨證的時候主要靠個人的臨診經(jīng)驗,摻雜了許多主觀因素與模糊概念,加上眾多的醫(yī)學流派推崇不同的思辨方式,使證侯的外延與內(nèi)涵愈加復雜而不可確定。隨著計算機、生物技術的進步以及交叉學科的發(fā)展,中醫(yī)證侯的研究開始了新局面,能否從病、證、癥、生物學基礎等不同層次中挖掘出其固有的規(guī)律性的聯(lián)系,以確定不同證侯的概念范疇、使辨證更具重復性和臨床可操作性,這成為大家所探求的方向。眾多學者為此開展了不少研究工作,筆者就中醫(yī)證侯近十年的研究概況進行論述并分析如下。
2 中醫(yī)證侯近十年的研究概況
2.1 證侯研究成果檢索結果與分析:利用“中醫(yī)”、“證或證侯”、“文獻”、“臨床” 及“動物(實驗)”等主題詞檢索CNKI數(shù)據(jù)庫從2000-2008年所收錄的論文,其中文獻研究相關論文272篇,臨床研究相關論文5323篇,動物實驗相關論文238篇。統(tǒng)計結果如圖1所示。從圖中可以看出以下特點:1)臨床研究是證侯研究的主要方式,這是由中醫(yī)的臨證性所決定的。2)中醫(yī)古籍資源有限、研究成果轉(zhuǎn)換周期較長,是導致文獻研究數(shù)量低的主要原因。
2.2 證侯研究主要切入方向的研究成果檢索結果與分析:在檢索“證”或“證侯”研究論文的基礎上,以“四診規(guī)范”、“生物學”、“數(shù)據(jù)挖掘”等關鍵詞結合手工進一步檢索,獲得近十年發(fā)表的論文中,與四診規(guī)范研究相關的論文227篇,與生物學研究相關論文436篇,與數(shù)據(jù)挖掘相關論文220篇。其研究態(tài)勢如圖2所示。從圖2中可以看出,相關研究論文均有逐年上升的趨勢。就近十年而言,證侯生物學研究相關論文最多,數(shù)據(jù)挖掘類論文數(shù)量增長迅速。
2.3 證侯的具體研究概況
2.3.1 四診的定性與定量研究:通過四診收集到的癥狀(主要由患者自己敘述出來)、體征(由患者表現(xiàn)出來,通過望、聞、切可知的,包括舌象、脈象、面色、神志狀況)等信息是證侯的構成基礎。舌、脈和面色雖客觀存在,但易受周圍環(huán)境、自然光線及醫(yī)者主觀判斷的影響,因此利用物理儀器、高分辨率的數(shù)碼相機結合色彩、圖譜分析軟件力求量化已成為趨勢。就舌象客觀化而言,不少學者對舌色、苔色、舌苔的厚度與濕度、齒痕、紋理特征,甚至對舌體的胖瘦、歪斜,舌下絡脈的長度、寬度、顏色進行了量化分析[2-5],具有一定的臨床符合率。
此外,通過問診所獲取的信息在中醫(yī)證候分類中起著重要的作用。如何控制和把握這些“軟指標”,近年來不少學者也做了很多工作。有學者把社會學中的定性研究引入中醫(yī)問診領域[12],建議與患者進行深入交談,對患者的語氣、語言表達方式、神態(tài)、言語內(nèi)容等進行綜合分析,以期獲取盡可能多的與病癥相關的信息,這些信息可能容易被醫(yī)生所忽視,但對證侯的判別起重要作用,能彌補定量研究的缺憾。
2.3.2 證侯生物學基礎的研究:中醫(yī)證侯的確立是依據(jù)表現(xiàn)型組資料得來的,對于現(xiàn)代生命科學而言,一個證候表現(xiàn)型的產(chǎn)生必然有從基因組層次到器官組層次的不同范圍的功能異常[13]。從文獻檢索的結果來看,涉及細胞、基因?qū)用娴难芯空撐妮^多,技術相對成熟;蛋白、代謝組學層面的論文較少,研究技術有待完善。
就細胞層面而言,研究較多的是細胞因子、細胞外基質(zhì)及細胞表面標志物在不同證侯下的特異表達。細胞因子的相關性研究趨于熱化主要是因為:其介導細胞間相互影響、作用而形成復雜的人體調(diào)節(jié)網(wǎng)絡,這可能是證的實質(zhì)所在[14];其種類眾多,功能各異,如白細胞介素、腫瘤壞死因子、趨化性細胞因子及其細胞膜受體和可溶性受體等,這些指標常見于諸多論文中;檢測方法較為便利,且敏感性強。
2.3.3 利用數(shù)據(jù)挖掘方法的證侯研究:中醫(yī)辨證的過程是醫(yī)者憑借個人經(jīng)驗從患者的一系列癥狀、體征或生物學指征、外界環(huán)境等復雜的非線性現(xiàn)象[15]中提取出相互關聯(lián)的、有內(nèi)在規(guī)律的、特異的組合信息。數(shù)據(jù)挖掘[16]則是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)集中識別有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程。可以說兩者在獲取信息的方式與過程上有契合之處。
研究者常依據(jù)不同的研究目的及數(shù)據(jù)的特點選擇不同的多元統(tǒng)計方式。如探討飲食習慣、居住環(huán)境、體質(zhì)因素等不同的致病因素或生物學檢測指標或某一疾病下各證型的癥狀、體征與該證型之間的關聯(lián)性多采用回歸法,如進一步分析哪些癥狀、體征和生物學指標對區(qū)分不同的證侯有較高的貢獻度,多通過逐步判別分析。
3 結語
就近年主要的研究成果來看,將宏觀與微觀、定性與定量的研究方式相結合是證侯研究的可行路徑和發(fā)展趨勢。然而如何將有一定組合規(guī)則和重疊涵蓋關系的證侯要素進行合理的分解,四診宏觀信息如何定量,生物學微觀指標如何定性,二者怎樣結合,采用什么樣的方式結合才能真正提示或反應、甚而揭示證侯的內(nèi)涵,這是目前研究的困惑與癥結所在,借鑒現(xiàn)代計算機信息處理技術、生物學技術和多學科交叉的優(yōu)勢互補,可能會有所突破。
參考文獻
[1] 郭蕾,王永炎,張志斌.關于證候概念的詮釋.北京中醫(yī)藥大學學報,2002; 26(2): 5-7
[2] 衛(wèi)保國,沈蘭蓀.舌體胖瘦的自動分析.計算機工程,2004; 30(11):25-58
[3] 衛(wèi)保國,沈蘭蓀,蔡軼珩.舌體歪斜的自動分析.計算機工程與應用,2003; 25(10): 22-26
[2]張玉亮.突發(fā)事件網(wǎng)絡輿情的生成原因與導控策略――基于網(wǎng)絡輿情主體心理的分析視閾[J].情報雜志,2012,31(4):54-57.
[3]許鑫,章成志,李雯靜.國內(nèi)網(wǎng)絡輿情研究的回顧與展望[J].情報理論與實踐,2009,32(3):115-120.
[4]Hua Zhao,Qingtian Zeng.Micro-blog Hot Event Detection Based on Dynamic Event Model.Lecture Notes in Artificial Intelligence 8041,2013:161-172.
[5]鄭軍.網(wǎng)絡輿情監(jiān)控的熱點發(fā)現(xiàn)算法研究[D].哈爾濱哈爾濱工程大學,2007.
[6]陳耘可,李博,鄭天翔.PDCA循環(huán)在煤炭企業(yè)質(zhì)量標準化建設中的研究與應用[J].煤炭經(jīng)濟研究,2013,33(2):77-79.
1數(shù)據(jù)倉庫概念及其體系結構
數(shù)據(jù)倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩(wěn)定的(Non – Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策。與其他數(shù)據(jù)庫應用相比,數(shù)據(jù)倉庫更像一種過程,即對分散的業(yè)務數(shù)據(jù)進行整合、加工和分析的過程,而不是一種可以購買的產(chǎn)品。
數(shù)據(jù)倉庫包括如下幾個部分,如圖1所示。
(1)原數(shù)據(jù)部分,數(shù)據(jù)提取、清洗、轉(zhuǎn)換和裝載(ETL)部分,以及中心數(shù)據(jù)倉庫部分。經(jīng)過這些環(huán)節(jié),可以完成將數(shù)據(jù)從源數(shù)據(jù)裝載到數(shù)據(jù)倉庫中的過程。
(2)數(shù)據(jù)集市。根據(jù)部門的需要,可以從數(shù)據(jù)倉庫中形成數(shù)據(jù)集市,以滿足部門及數(shù)據(jù)分析的需要。
圖1 數(shù)據(jù)倉庫的體系結構
(3)數(shù)據(jù)訪問和分析部分。在數(shù)據(jù)訪問和分析的過程中,可以采用OLAP分析及數(shù)據(jù)挖掘技術進行分析,得出有關的分析結果。
2 數(shù)據(jù)分析技術
數(shù)據(jù)分析技術是建立在一定數(shù)據(jù)基礎上,進行分析的方式和方法,通常包括:OLAP、數(shù)據(jù)挖掘、統(tǒng)計分析、聯(lián)機挖掘等技術。需要說明的是,數(shù)據(jù)分析技術并不一定需要建立在數(shù)據(jù)倉庫的基礎上,但有了數(shù)據(jù)倉庫之后,數(shù)據(jù)分析的效率和能力將大大提高。通過與數(shù)據(jù)分析技術的結合,才能發(fā)現(xiàn)許多前所未有的分析結果,并為管理者提供科學的決策依據(jù)。
2.1 OLAP(聯(lián)機分析處理)
OLAP分析與數(shù)據(jù)倉庫的關系非常緊密。數(shù)據(jù)倉庫的建立,解決了依據(jù)主題進行數(shù)據(jù)存儲的問題,提高了數(shù)據(jù)的存取速度,而OLAP分析構成了數(shù)據(jù)倉庫的表現(xiàn)層,將數(shù)據(jù)倉庫中的數(shù)據(jù)通過不同的維和指標,靈活的展現(xiàn)出來,提高數(shù)據(jù)的展現(xiàn)能力,進而提高數(shù)據(jù)的分析能力。
OLAP涉及以下術語:維度(Dimension)、量度(Measure)、級別(Level)、成員(Member)、多維數(shù)據(jù)集/立方體(Cube)、時間粒度(Time granularity)、星型結構/維度(Star schema)、雪花型結構/維度(Snowflake schema)。
OLAP對不同維度進行肉眼觀察,并非運用更科學的概率論或其它數(shù)學工具去測度;而肉眼觀察帶有主觀的“有色眼鏡”,故缺乏科學客觀的評判手段和方法。其次,當遇到維度過多、數(shù)據(jù)量過大的實際情況時,OLAP工作效率急劇下降。再次,若自變量和自變量之間存在的線性關系或交互作用,OLAP無法分辨“混雜因子”或找出主要影響因素。因此,OLAP無法完全滿足在分析信息系統(tǒng)中最基本、最重要和最關鍵的要求:面對主題(商務需求)進行分析;而在實際信息處理中,OLAP無法實現(xiàn)分析的主題或任務,則需要數(shù)據(jù)分析或數(shù)據(jù)挖掘更強大的分析工具、技術來實現(xiàn)。計算機論文
2.2 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘亦稱為數(shù)據(jù)開采,它首先由W. J. Frawley、G. Piatesky-Shapiro等人提出。數(shù)據(jù)挖掘是一種數(shù)據(jù)分析工具,它從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取人們感興趣的數(shù)據(jù)模式、數(shù)據(jù)的普遍關系及其隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識,提取的知識表示為概念(Concepts)、規(guī)則(Rules)、規(guī)律(Regularities)、模式(Patterns)等形式,其目的是幫助管理者尋找數(shù)據(jù)間潛在的關聯(lián),發(fā)現(xiàn)被忽略的要素,而這些信息對預測趨勢和決策行為將起到一定的支持作用。
數(shù)據(jù)庫中的數(shù)據(jù)挖掘是一個多步驟的處理過程,這些步驟有:
(1)數(shù)據(jù)定義階段。主要了解相關領域的有關情況,熟悉背景知識,弄清楚用戶決策分析對信息的要求。
(2)數(shù)據(jù)提取階段。根據(jù)要求從數(shù)據(jù)庫中提取相關的數(shù)據(jù)。
(3)數(shù)據(jù)預處理階段。主要對前一階段產(chǎn)生的數(shù)據(jù)進行再加工,檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性,對其中的噪音數(shù)據(jù)進行處理,對缺損的數(shù)據(jù)進行填補。
(4)數(shù)據(jù)挖掘階段。主要是運用選定的知識發(fā)現(xiàn)算法,從數(shù)據(jù)中提取出用戶所需要的知識,這些知識可以用一種特定的方式表示或使用一些常用的表示方式。
(5)知識評估階段。將發(fā)現(xiàn)的知識以用戶能了解的方式呈現(xiàn),根據(jù)需要對知識發(fā)現(xiàn)過程中的某些處理階段進行優(yōu)化,直到滿足要求。
2.3數(shù)據(jù)倉庫、0LAP和數(shù)據(jù)挖掘之間的關系
在數(shù)據(jù)倉庫化的決策支持系統(tǒng)中,應將數(shù)據(jù)倉庫、OLAP、數(shù)據(jù)挖掘進行有機結合,其所擔當?shù)慕巧謩e為:
(1)數(shù)據(jù)倉庫用于數(shù)據(jù)的存儲和組織,它從事務處理系統(tǒng)中抽取數(shù)據(jù),并對其進行綜合、集成與轉(zhuǎn)換,提供面向全局的數(shù)據(jù)視圖;OLAP致力于數(shù)據(jù)的分析;數(shù)據(jù)挖掘則專注于知識的自動發(fā)現(xiàn)。
(2)在數(shù)據(jù)倉庫和OLAP、數(shù)據(jù)倉庫和數(shù)據(jù)挖掘之間存在著單向支持的關系;在數(shù)據(jù)挖掘與OLAP之間,存在雙向聯(lián)系,即數(shù)據(jù)挖掘為OLAP提供分析的模式,OLAP對數(shù)據(jù)挖掘的結果進行驗證,并給予適當?shù)囊龑АH哧P系如圖2所示。
圖2 數(shù)據(jù)倉庫、OLAP、數(shù)據(jù)挖掘的關系
3、數(shù)據(jù)倉庫技術及在人力資源系統(tǒng)的設計
人力資源系統(tǒng)的數(shù)據(jù)量大,但相對分散,統(tǒng)計功能不足,利用率低。為了更好的發(fā)揮其數(shù)據(jù)的功能,提出人力資源數(shù)據(jù)倉庫系統(tǒng)的設計。該系統(tǒng)主要由ETL系統(tǒng)、OLAP系統(tǒng)、客戶端組件系統(tǒng)三部分組成,其整體框架如圖3所示。
圖3 人力資源數(shù)據(jù)倉庫系統(tǒng)框架圖
ETL系統(tǒng)負責定期的從OLTP系統(tǒng)中將業(yè)務數(shù)據(jù)庫的數(shù)據(jù)導入數(shù)據(jù)倉庫,在導入過程中會依據(jù)OLAP系統(tǒng)中模式設計的要求對數(shù)據(jù)進行清洗和轉(zhuǎn)換,以符合數(shù)據(jù)倉庫的結構要求。
OLAP系統(tǒng)由三部分組成:OLAP引擎、OLAP數(shù)據(jù)展示模塊和元數(shù)據(jù)管理模塊。OLAP引擎負責讀入數(shù)據(jù)倉庫中的數(shù)據(jù),并根據(jù)模式定義構建多維數(shù)據(jù)集,使數(shù)據(jù)以多維格式展示。OLAP數(shù)據(jù)展示模塊負責將多維數(shù)據(jù)集展現(xiàn)為一個聯(lián)機分析處理(OLAP)頁面,用戶可以在頁面上執(zhí)行典型的聯(lián)機分析處理導航操作,如上卷、下鉆和旋轉(zhuǎn)等。元數(shù)據(jù)管理模塊負責對模式設計文件進行管理。
客戶端組件系統(tǒng)負責訪問用戶的登錄驗證,并根據(jù)訪問用戶的訪問權限提供對應的數(shù)據(jù)展現(xiàn)。
4、結束語
本文闡述了數(shù)據(jù)倉庫、OLAP、數(shù)據(jù)挖掘的概念,并對OLAP和數(shù)據(jù)挖掘技術進行了探討。并在此基礎上,提出了人力資源數(shù)據(jù)倉庫系統(tǒng)的設計方案。數(shù)據(jù)倉庫已經(jīng)成為現(xiàn)代信息領域的必不可少的基礎設施之一,我們應該使用好數(shù)據(jù)倉庫,使之成為迎接挑戰(zhàn)的有力武器。
參考文獻
[1] W. H. Inmon 數(shù)據(jù)倉庫[M] 機械工業(yè)出版社 2003
[2] 王珊等 數(shù)據(jù)倉庫技術與聯(lián)機分析處理[M] 科學出版社 1998
中圖分類號:TP29 文獻標志碼:A 文章編號:1006-8228(2017)05-37-03
Research on the characteristics of resident travel based on the taxi
GPS trajectory data mining
Lin Jiyan, Zhang Yaqiong, Zhang Hui
(School of Information Technology, Yulin University, Yulin, Shaanxi 719000, China)
Abstract: The analysis to the characteristics of urban residents travel is becoming increasingly important in urban traffic planning, and has become an important basis of urban road traffic construction. The urban taxi can well reflect the characteristics of residents travel because of its operational characteristics and rule. Therefore, in order to effectively solve the problem of city road congestion and provide the basis for city traffic planning, the paper presents the research on the characteristics of resident travel based on the taxi GPS trajectory data mining. The research uses DBSCAN algorithm to realize the clustering analysis of the historical GPS trajectory data, which can not only extract the temporal and spatial characteristics of urban resident travel, but also effectively reduce the taxi no-load rate.
Key words: resident travel characteristic; data mining; GPS trajectory data; DBSCAN
0 引言
在城市的上下班高峰期,道路磯率淺鞘薪煌ㄎ侍庵兇釵突出的難題,這跟城市居民出行行為密不可分,因為出行的居民是交通量的主要來源[1]。一個城市的交通系統(tǒng)狀況跟城市居民的出行行為息息相關,居民的出行行為會對城市交通體系產(chǎn)生影響[2]。對居民出行特征進行研究是城市和交通規(guī)劃、城市公共基礎設施建設管理中的一個基礎性任務,不僅可以用來對目前的交通出行情況進行評估,也可以用來對居民的出行需求進行預測,對實施合理有效的城市交通規(guī)劃起著至關重要的作用[3]。
出租車因其靈活性和便利性,已日漸成為城市交通系統(tǒng)的重要組成部分,同時,因為它的起點和終點由乘客決定,且24小時不間斷服務,所以,出租車的運營規(guī)律能夠反映出乘客的出行特征[4]。由于裝載在出租車上的GPS和通信設備以一定的頻率向城市交通客運管理中心傳送出租車的實時經(jīng)緯度、運營狀態(tài)、行駛方向、速度等信息,因此,管理中心會積累大量的出租車GPS軌跡數(shù)據(jù)[5],利用DBSCAN對這些進行數(shù)據(jù)進行聚類分析,可以在一定程度上挖掘乘客出行的時空特征,也能為出租車尋找最佳的載客區(qū)域提供依據(jù),有效的降低出租車的空駛率。
1 GPS軌跡數(shù)據(jù)挖掘設計
1.1 數(shù)據(jù)預處理
本文選取榆陽區(qū)(地理坐標為東經(jīng)108?58'-110?24',北緯37?49'-38?58'之間)作為研究區(qū)域,GPS軌跡數(shù)據(jù)使用榆陽區(qū)1100多輛出租車五天的運營數(shù)據(jù),對數(shù)據(jù)進行預處理后,出租車軌跡數(shù)據(jù)由車牌ID tID、、當前位置loc、GPS時間ct、營運狀態(tài)tsta、行駛方向tdir、GPS速度dspe等六個屬性組成,部分屬性值如表1所示。
表1中,營運狀態(tài)的取值為0-3,其中0表示空載,1表示載客,2表示駐車,3表示停運;GPS方向的取值為000-360,以度為單位,即與北極方向的夾角,代表車輛的行駛方向。
1.2 利用DBSCAN算法進行聚類挖掘
居民的作息和社會活動有明顯的時間規(guī)律,比如上下班高峰期的載客點分布情況和非高峰期的居民出行特征有可能完全不同,因此,可以先將GPS歷史軌跡數(shù)據(jù)根據(jù)時間特征分類,再進行密度聚類分析,如此便可充分挖掘在不同時間段上居民出行特征的空間密度分布情況,給出租車提供更加合理的時空載客區(qū)域分布數(shù)據(jù),有效地提高其巡游過程中的載客成功率。基于此,論文引入了DBBSCAN算法,該算法需要3個輸入?yún)?shù):歷史軌跡數(shù)據(jù)對象D,空間半徑ε,以及密度閾值MinPts;輸出參數(shù)為聚類簇C,部分MATLAB代碼如下:
data=importdata('data.xlsx');
data=data.data.Sheet1;
……
num=size(data,1);
k=floor(log(num))+1;
k=round(num/25)+1;
k_dist=zeros(num,1);
for i=1:num
temp=repmat(data(i,:),num,1);
gx0=temp(:,1); gy0=temp(:,2);
gx1=data(:,1);gy1=data(:,2);
dist0=sqrt((gx0-gx1).^2+(gy0-gy1).^2);
dist_s=sort(dist0);
k_dist(i)=dist_s(k);
end
x=1:num;
figure;plot(x,k_dist,'r-');
xlabel('?ù±?±à??');ylabel('k_{-}dist');title('k_{-}dist??');
……
x=[(1:m)' data];
[m,n]=size(x);
types=zeros(1,m);
dealed=zeros(m,1);
dis=calDistance(x(:,2:n));
number=1;
……
img=imread('map.jpg');
[Ny,Nx]=size(img);
……
figure;imagesc(x00,y00,img); colormap(gray); hold on;
for i=1:m
if class(i)==-1
plot(data(i,1),data(i,2),'.r');
else if class(i)==1
if types(i)==1
plot(data(i,1),data(i,2),'+b');
else
plot(data(i,1),data(i,2),'.b');
end
elseif class(i)==2
if types(i)==1
plot(data(i,1),data(i,2),'+g');
else
plot(data(i,1),data(i,2),'.g');
end
……
plot(x1,y1,'r*');
xlabel('度'); ylabel('緯度');
2 實驗結果
聚類結果如圖1和圖2所示,出行熱點區(qū)域在圖中用圓圈標出。
以上的聚類結果顯示,榆陽區(qū)的居民出行呈現(xiàn)一定空間和時間特征。工作日和非工作日出租車熱點區(qū)域不同,且工作日的不同時間居民出行的特征不同;在工作日,出租車的載客熱點數(shù)比非工作日多;而載客熱點分布,工作日比非工作日分散。該聚類結果也可以給出租車司機提供歷史載客熱點序列,從一定程度上解決巡游方式的出租車空載率高的問題。
3 結束語
本文利用DBSCAN算法對出租車的歷史GPS軌跡數(shù)據(jù)進行挖掘,從挖掘結果可以分析出居民出行的時空特征,從而用來對目前的交通出行情況進行評估,同時也可以用來對居民的出行需求進行預測;再者,可以根據(jù)挖掘結果給出租車司機提供歷史載客熱點序列,幫助出租車司機降低空駛率。本文僅針對工作日和周末特定時刻給出了聚類分析,沒有詳細地分析一天中不同時刻的居民出行特征,以后的工作中會繼續(xù)研究和改進。
參考文獻(References):
[1] 衛(wèi)龍,高紅梅.基于軌跡數(shù)據(jù)挖掘的居民出行特征研究進展[J].西部交通科技,2016.10:87-92
[2] 馮琦森.基于出租車軌跡的居民出行熱點路徑和區(qū)域挖掘[D].重慶大學,2016.
[3] 陳世莉,陶海燕,李旭亮,卓莉.基于潛在語義信息的城市功能區(qū)識別――廣州市浮動車GPS時空數(shù)據(jù)挖掘[J].地理學報,2016.3:471-483
[4] 張俊濤,武芳,張浩.利用出租車軌跡數(shù)據(jù)挖掘城市居民出行特征[J].地理與地理信息科學,2015.6:104-108
[5] 張薇,林龍.基于數(shù)據(jù)挖掘的增城居民出行特征分析[J].科技和產(chǎn)業(yè),2015.7:61-64
[6] 趙苗苗.基于出租車軌跡數(shù)據(jù)挖掘的推薦模型研究[D].首都經(jīng)濟貿(mào)易大學碩士學位論文,2015.
1 數(shù)據(jù)挖掘的功能
數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中四棟搜索隱藏于其中的具有特殊關系性的信息過程。它是數(shù)據(jù)庫知識發(fā)現(xiàn)KDD中的一個步驟。知識發(fā)現(xiàn)KDD過程由以下3個階段組成:數(shù)據(jù)準備、數(shù)據(jù)挖掘、結果表示和解釋。數(shù)據(jù)挖掘跟許多學科都交叉關聯(lián),包括數(shù)據(jù)庫技術、統(tǒng)計學、機器學習、人工智能、云計算和可視化等。
數(shù)據(jù)挖掘的實際應用功能可分為三大類和六分項:分類和聚類屬于分類去隔類;回歸和時間序列屬于推算預測類;關聯(lián)和序列則屬于序列規(guī)則類。分類常被用來根據(jù)歷史經(jīng)驗已經(jīng)分好的數(shù)據(jù)來研究它們的特征,然后再根據(jù)這些特征對其他未經(jīng)分類或是新的數(shù)據(jù)做預測。聚類是將數(shù)據(jù)分群,其目的是找出群間的差異來,同時找出群內(nèi)成員間相似性。回歸是利用一系列的現(xiàn)有數(shù)值來預測一個數(shù)值的可能值。基于時間序列的預測與回歸功能類似,只是它是用現(xiàn)有的數(shù)值來預測未來的數(shù)值。關聯(lián)是要找出在某一事件與數(shù)據(jù)中會同時出現(xiàn)的東西。
2 降維
從降維的角度講,整個數(shù)據(jù)挖掘的過程就是一個降維的過程。在這個過程中,需要對數(shù)據(jù)刪除線性關系比較強的特征數(shù)據(jù),再用一些算法,如信號分析算法、傅里葉轉(zhuǎn)換、離散小波轉(zhuǎn)換等算法,從數(shù)據(jù)中提取特征,再對數(shù)據(jù)做主成分析處理,得到最后的特征,再用數(shù)據(jù)挖掘算法來將這些特征轉(zhuǎn)化為人類可讀取的數(shù)據(jù)或信息。
3 分布式數(shù)據(jù)挖掘解決方案
隨著分布式計算技術、云計算技術、hadoop生態(tài)圈和非結構化數(shù)據(jù)庫等技術的發(fā)展,以及對大數(shù)據(jù)挖掘的需求,出現(xiàn)了一批分布式數(shù)據(jù)挖掘,比較典型的有Apache推出的基于Hadoop的Mahout和加利福尼亞大學伯克利分校AMP實驗室推出的基于Spark的MLBase。在Mahout中主要實現(xiàn)3種類型的數(shù)據(jù)挖掘算法:分類、聚類(集群)和協(xié)同過濾。相比Mahout而言,MLbase更好的支持迭代計算,它把數(shù)據(jù)拆分成若干份,對每一份使用不同的算法和參數(shù)運算出結果,看哪一種搭配方式得到的結果最優(yōu)。
4 大數(shù)據(jù)下的具體應用實例――生物信息學的應用
生物信息學(Bioinformatics)是生命科學、計算機科學、信息科學和數(shù)學等學科交匯融合形成的一門交叉學科。近年來隨著先進儀器裝備與信息技術等越來越廣泛和深入的整合到生物技術中來,生物醫(yī)學研究中越來越頻繁的涉及到大數(shù)據(jù)存儲和分析等信息技術。在使用計算機協(xié)助生物信息時,處理僅有計算機輔助的方式存儲數(shù)據(jù)很顯然是不夠的,生物信息學研究的目的是運用計算機強大的計算能力來加速生物數(shù)據(jù)的分析,理解數(shù)據(jù)中所包含的生物學意義。當前生物信息學研究的熱點有:
(1)由以序列分析為代表的組成分析轉(zhuǎn)向功能分析。
(2)由對單個生物分子的研究轉(zhuǎn)向基因調(diào)控忘了等動態(tài)信息的研究。
(3)完整基因組數(shù)據(jù)分析。
(4)綜合分析。
生物信息數(shù)據(jù)具有如下特點:高通量與大數(shù)據(jù)量;種類繁多,形式多樣;異構性;網(wǎng)絡性與動態(tài)性;高維;序列數(shù)據(jù)等特點[5]。針對這樣的生物數(shù)據(jù)信息,要結合當前的大數(shù)據(jù)分析方法進行分析和理解。當前數(shù)據(jù)挖掘?qū)崿F(xiàn)對生物信息分析的支持主要有:生物數(shù)據(jù)的語義綜合,數(shù)據(jù)集成;開發(fā)生物信息數(shù)據(jù)挖掘工具;序列的相似性查找和比較;聚類分析;關聯(lián)分析,生物文獻挖掘等方面。
參考文獻
[1]許凡.大數(shù)據(jù)時代的數(shù)據(jù)挖掘技術探討[J].電子技術與軟件工程,2015(08).
[2]洪松林.數(shù)據(jù)挖掘技術與工程實踐[M].北京:機械工業(yè)出版社,2014(11).
[3]李榮.生物信息數(shù)據(jù)挖掘若干關鍵問題研究與應用[D].復旦大學(博士論文),2004(11).
[4]宋杰.生物信息數(shù)據(jù)挖掘中的若干方法及其應用研究[D].大連理工大學(博士論文),2005(04).
[5]孫勤紅.基于梯度采樣局部收斂的生物信息大數(shù)據(jù)挖掘[J].科技通報,2015(10).
作者簡介
孫勤紅(1979-),女,山東省人。現(xiàn)為三江學院計算機科學與工程學院講師。研究方向為人工智能、數(shù)據(jù)挖掘。
數(shù)據(jù)挖掘技術作為當前計算機信息技術中的一項較為新興的技術,綜合運用了數(shù)理統(tǒng)計、模式識別、計算智能、人工智能等多項先進技術,主要是從大量的數(shù)據(jù)中來發(fā)現(xiàn)和挖掘一些隱含的有價值的知識,也就是從大型的數(shù)據(jù)庫數(shù)據(jù)中挖掘一些人們比較感興趣的知識,這些被提取的知識通常會表現(xiàn)為模式、規(guī)律、規(guī)則和概念,將數(shù)據(jù)挖掘的所有對象定義成數(shù)據(jù)庫或者是文件系統(tǒng)以及其他的一些組織在一起的數(shù)據(jù)集合,數(shù)據(jù)挖掘技術也是現(xiàn)在智能理論系統(tǒng)的重要研究內(nèi)容,已經(jīng)開始被應用于行政管理、醫(yī)學、金融、商業(yè)、工業(yè)等不同的領域當中,在保護設備故障信息管理方面發(fā)揮出了積極的作用。
一、數(shù)據(jù)挖掘技術的概念
隨著數(shù)據(jù)庫技術和人工智能技術的不斷進步,數(shù)據(jù)挖掘技術逐步發(fā)展起來,主要是指從大量的數(shù)據(jù)中發(fā)現(xiàn)和挖掘一些隱含的有價值的有用信息和知識,這些被提取的知識通常會表現(xiàn)為模式、規(guī)律、規(guī)則和概念,將數(shù)據(jù)挖掘的所有對象定義成數(shù)據(jù)庫或者是文件系統(tǒng)以及其他的一些組織在一起的數(shù)據(jù)集合,當前數(shù)據(jù)挖掘技術已經(jīng)逐漸被應用于了醫(yī)藥業(yè)、保險業(yè)、制造業(yè)、電信業(yè)、銀行業(yè)、市場營銷等不同的領域,隨著計算技術、網(wǎng)絡技術以及信息技術的不斷進步,在故障診斷過程中所采集到的數(shù)據(jù)可以被廣泛地存儲在不同的數(shù)據(jù)庫當中,如果依然采用傳統(tǒng)的數(shù)據(jù)處理方法來對這些海量的信息數(shù)據(jù)進行分析處理,不僅會浪費大量的實踐而且也很難挖掘到有效的信息數(shù)據(jù),同時,盡管智能診斷以及專家系統(tǒng)等方式在故障的診斷過程中已經(jīng)被得到了廣泛的應用,但是這些方法卻仍然存在著很多推理困難、知識瓶頸等一些尚未完全被解決的問題,采用數(shù)據(jù)挖掘技術就可以比較有效地來解決這些難題,在故障診斷的過程中發(fā)揮其獨特的優(yōu)勢。從不同的角度進行分析,數(shù)據(jù)挖掘技術可以分為不同的方法,就目前的發(fā)展現(xiàn)狀來看,常用的數(shù)據(jù)挖掘技術方法主要有遺傳算法、粗集方法、神經(jīng)網(wǎng)絡方法以及決策樹方法等。
二、數(shù)據(jù)挖掘技術在保護設備故障信息中的實現(xiàn)方法
1.基本原理。在設備出現(xiàn)故障時采用數(shù)據(jù)挖掘技術對設備進行一系列的故障診斷,也就是說根據(jù)這一設備的運行記錄,對其運行的趨勢進行預測,并對其可能存在的運行狀態(tài)進行分類,故障診斷的實質(zhì)就是一種模式識別方式,對機器設備的故障進行診斷的過程也就是該模式匹配和獲取的過程。
2.對故障診斷的數(shù)據(jù)挖掘方法建模。針對機械故障的診斷來說,首先就應當獲取一些關于本機組的一些運行參數(shù),既要包括機器在正常運行以及平穩(wěn)工作時的信息數(shù)據(jù),也應當包括機器在出現(xiàn)故障時的一些信息數(shù)據(jù),在現(xiàn)場的監(jiān)控系統(tǒng)中往往就會存在著相應的正常工作狀態(tài)下以及出現(xiàn)故障時的不同運行參數(shù),而數(shù)據(jù)挖掘的任務就是從這些雜亂無章的信息樣本庫中找出其中所隱藏著的內(nèi)在規(guī)律,并且從中提取各自故障的不同特征,在對故障的模式進行劃分時,我們通常可以借助概率統(tǒng)計的方式,在對故障模式進行識別時可以采用較為成熟的關聯(lián)規(guī)則理論,實現(xiàn)變量之間的關聯(lián)關系,并最終得到分類所需要用到的一些規(guī)則,從而最終達到分類的目的,依據(jù)這些規(guī)則,就可以對一些新來的數(shù)據(jù)進行判斷,而且可以準確地對故障進行分類,找出故障所產(chǎn)生的原因和解決故障的正確方法。
三、數(shù)據(jù)挖掘技術保護設備故障信息管理的基本功能
1.數(shù)據(jù)傳輸功能。數(shù)據(jù)挖掘技術保護設備故障信息管理與分析系統(tǒng)的主要數(shù)據(jù)來源就是故障信息的分站系統(tǒng),而分站系統(tǒng)中的數(shù)據(jù)是各個子站的一個數(shù)據(jù)匯總,而保護設備故障信息管理與分析系統(tǒng)所采用的獲取數(shù)據(jù)的主要方式就是一些專門的通信程序構建起系統(tǒng)與分站之間的聯(lián)系,將分站上的一些匯總數(shù)據(jù)傳輸?shù)焦收闲畔⑾到y(tǒng)的數(shù)據(jù)庫中,分析系統(tǒng)所具有的數(shù)據(jù)傳輸功能,在進行數(shù)據(jù)的處理時又能做到不影響原先分站數(shù)據(jù)庫的正常運行,并且具備抗干擾能力強、計算效率高的優(yōu)點。
2.數(shù)據(jù)的分析功能。系統(tǒng)在正常運行時,會從故障信息子站或者是分站采集相關的數(shù)據(jù)并且對這些采集到的數(shù)據(jù)進行分析整理,最終得到有用的數(shù)據(jù)信息,利用數(shù)據(jù)挖掘技術對龐大的故障數(shù)據(jù)進行分析、分類以及整理,能夠有效地找出有用的信息,歸并一些冗余的信息,對信息進行有效地存儲和分類。另外,數(shù)據(jù)挖掘技術還具有信息查詢的功能,可以進行不同條件下的查詢,例如按時間段、報告類型、設備型號以及單位等進行查詢,實現(xiàn)查詢后的備份轉(zhuǎn)存等,根據(jù)故障信息系統(tǒng)所提供高的數(shù)據(jù)信息以及本系統(tǒng)庫中所保存的一些整定阻抗值,可以通過邏輯判斷生產(chǎn)繼電保護動作的分析報告,主要包括對故障過程的簡述、故障切除情況以及保護動作情況等,可以便于繼電保護人員直觀的對保護裝置的動作情況進行分析。
四、結語
隨著企業(yè)自動化程度的不斷提高以及數(shù)據(jù)庫技術的迅速發(fā)展,很多企業(yè)在一些重要的設備方面都安裝了監(jiān)測系統(tǒng),對設備運行過程中的一些重要參數(shù)和數(shù)據(jù)進行采集,采用數(shù)據(jù)挖掘技術可以有效地解決設備故障診斷中的一些知識獲取瓶頸,將數(shù)據(jù)挖掘系統(tǒng)充分應用到監(jiān)控系統(tǒng)中,有效解決故障診斷中的一些困難,事實證明,將數(shù)據(jù)挖掘技術應用到故障診斷中是非常有效的,也是值得研究和學習的新型技術手段。
參考文獻:
[1]李勛,龔慶武,楊群瑛,羅思需,李社勇.基于數(shù)據(jù)挖掘技術的保護設備故障信息管理與分析系統(tǒng)[j].電力自動化設備,2011,9
一、系統(tǒng)架構及技術分析
系統(tǒng)架構主要由數(shù)據(jù)倉庫系統(tǒng)、模型庫系統(tǒng)、知識庫系統(tǒng)及可視化接口4部分構成。采用的關鍵技術是數(shù)據(jù)倉庫技術(DW)、數(shù)據(jù)挖掘技術(DM)、在線分析處理技術(OLAP)。
(一)數(shù)據(jù)倉庫的作用
電子政務的決策過程是一個從非結構化數(shù)據(jù)中抽取結構化信息,再提供非結構化決策分析結果的過程。因此,為了營造良好的電子政務決策數(shù)據(jù)環(huán)境,獲得高質(zhì)量的數(shù)據(jù)分析結果,建立適合政府決策的數(shù)據(jù)倉庫系統(tǒng)是電子政務決策支持系統(tǒng)的關鍵環(huán)節(jié),以確保政務系統(tǒng)中的數(shù)據(jù)能夠更好地發(fā)揮分析、決策的作用。這種數(shù)據(jù)倉庫系統(tǒng)的功能要能向兩個不同方向拓展,一是廣度計算,二是深度計算。廣度計算是使數(shù)據(jù)倉庫系統(tǒng)的應用范圍盡量擴大,能基本涵蓋市級政府決策、服務的領域;深度計算使數(shù)據(jù)倉庫系統(tǒng)克服了以往數(shù)據(jù)庫簡單數(shù)據(jù)操作處理(即事務處理)的缺點,對數(shù)據(jù)處理提出了更高的要求,使其能更多地參與政府對數(shù)據(jù)分析和決策的制定等工作。
(二)模型庫系統(tǒng)的功能
模型庫系統(tǒng)包括模型庫及其管理系統(tǒng),模型庫是一個包含有財務、統(tǒng)計、運籌和其他定量模型的軟件包,存放解決行政管理問題的經(jīng)驗模型,是為決策提供分析能力的部件,給予決策者通過推理、比較、選擇來分析、預測和解答整個問題的能力。因此,研究一些決策支持模型,建立一個政府決策的模型庫系統(tǒng)是完成系統(tǒng)的關鍵環(huán)節(jié)之一。這種模型庫系統(tǒng)應具有以下兩個特點,一是能實現(xiàn)多目標決策;二是能實現(xiàn)多領域、多部門、多用途的決策,即按經(jīng)濟內(nèi)容來看應具有預測類模型、綜合平衡模型、結構優(yōu)化模型、經(jīng)濟控制類模型等,按決策活動來看應有規(guī)劃模型、推理模型、分析模型、預測模型、評估模型等。
(三)知識庫系統(tǒng)的功能
知識庫系統(tǒng)包括知識庫及知識庫管理系統(tǒng),其功能是對知識進行系統(tǒng)化組織與管理,存儲、增加、刪除、修改和查詢知識,以及對知識進行一致性和完整性校驗。知識庫與數(shù)據(jù)庫既有區(qū)別又有聯(lián)系,從知識的邏輯表示觀點來看,關系數(shù)據(jù)庫是一種簡單的知識庫,數(shù)據(jù)庫中的每一個關系是一個原子公式,即一個謂詞,關系中的元組即是知識中的事實,因此利用關系數(shù)據(jù)庫來建造知識庫,就可以充分利用關系數(shù)據(jù)庫管理系統(tǒng)的功能,便于知識庫管理系統(tǒng)的設計與實現(xiàn)。
(四)可視化接口
可視化接口包括預測、分析、查詢和維護等4個子系統(tǒng)。通過數(shù)據(jù)分析和預測工具對數(shù)據(jù)倉庫中的數(shù)據(jù)進行多維分析、匯總,結果可以用二維表、餅圖、折線圖和直方圖表示。
二、數(shù)據(jù)挖掘的技術工具和基本過程
數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘常用的技術有神經(jīng)網(wǎng)絡、決策樹、遺傳算法、近鄰算法和規(guī)則推導等。數(shù)據(jù)挖掘常用的工具有:
第一,基于神經(jīng)網(wǎng)絡的工具。由于對非線性數(shù)據(jù)具有快速建模能力,神經(jīng)網(wǎng)絡很適合非線性數(shù)據(jù)和含噪聲數(shù)據(jù),所以在政府數(shù)據(jù)庫的分析和建模方面可以應用。
第二,基于關聯(lián)規(guī)則和決策樹的工具。大部分數(shù)據(jù)挖掘工具采用規(guī)則發(fā)現(xiàn)或決策樹分類技術來發(fā)現(xiàn)數(shù)據(jù)模式和規(guī)則,其核心是某種歸納算法。
第三,基于模糊邏輯的工具。其發(fā)現(xiàn)方法是應用模糊邏輯進行數(shù)據(jù)查詢、排序等。
第四,綜合多方法工具。不少數(shù)據(jù)挖掘工具采用了多種開采方法,這類工具一般規(guī)模較大,適用于大型數(shù)據(jù)庫或者并行數(shù)據(jù)庫。數(shù)據(jù)挖掘的基本過程包括數(shù)據(jù)準備、模型搜索、結果分析和生成報告。
數(shù)據(jù)準備:收集和凈化來自數(shù)據(jù)源的信息并加以存儲,將其放入數(shù)據(jù)倉庫中。
模型搜索:利用數(shù)據(jù)挖掘工具在數(shù)據(jù)中查找模型,搜索過程可以由系統(tǒng)自動執(zhí)行,也可以由用戶參與執(zhí)行。對于一個主題的搜索,可用神經(jīng)網(wǎng)絡、專家系統(tǒng)、統(tǒng)計方法等。