時間:2023-08-20 14:59:52
序論:好文章的創(chuàng)作是一個不斷探索和完善的過程,我們?yōu)槟扑]十篇云計算的相關(guān)技術(shù)范例,希望它們能助您一臂之力,提升您的閱讀品質(zhì),帶來更深刻的閱讀感受。
中圖分類號:G251 文獻標識碼:A
1 云計算與圖書館
1.1 云計算4
云計算是由分布式計算、虛擬化、網(wǎng)絡存儲、負載均衡等新興的信息技術(shù)融合而成的技術(shù)集合,是互聯(lián)網(wǎng)技術(shù)向多元化、高效化、服務化發(fā)展的產(chǎn)物。云計算的核心是應用服務,從商業(yè)角度來說,云計算是一種和新技術(shù)有關(guān)的新的商業(yè)模式,這種模式并不要求人們自己去建設與之相關(guān)的設施、平臺和應用,人們所要做的只是購買相關(guān)服務的使用權(quán)。具體來講,云計算具有以下特點:
(1)節(jié)約成本。云計算的核心是應用服務,業(yè)界普遍描述了云計算的使用模式,即像水電和煤氣一樣,按照人們的需求去購買云服務,企業(yè)可以靈活地根據(jù)自己的需求來購買計算能力、存儲空間、帶寬等。當企業(yè)需求發(fā)生變化時,其只須考慮增加或減少自己購買的基礎設施服務。通過這種模式,企業(yè)不用投入到基礎設施和系統(tǒng)的建設中去,大大節(jié)約了成本的投入。
(2)使用方式靈活多樣。由于數(shù)據(jù)存儲在云上,在能聯(lián)接到云服務器的前提下,云服務不拘泥于人們的使用地點和時間。由于云計算能輕松實現(xiàn)各種終端的互聯(lián)互通,未來隨著“三網(wǎng)融合”的推進,人們可以利用云計算技術(shù),通過PC、移動設備或電視機等智能家電來享受云服務。
(3)便利的資源共享方式。由于信息資源存儲在云上,用戶只需連接網(wǎng)絡就可以上傳相關(guān)數(shù)據(jù)即可,不拘泥于時空的限制,具有下載權(quán)限的其他用戶無須和數(shù)據(jù)提供者碰見或同時在線,只用登錄云平臺就可以隨時隨地地獲取這些數(shù)據(jù)。
(4)數(shù)據(jù)的安全性得到提高。分布式數(shù)據(jù)中心提供了數(shù)據(jù)存儲在地理意義上的隔離,提高了容災能力。同時,虛擬化技術(shù)可以保證集群服務器上的多個虛擬服務器均有云服務器鏡像,單個服務器出現(xiàn)問題不會影響到數(shù)據(jù)的存儲與利用。
(5)定制式應用服務。用戶可以根據(jù)自身所在組織的特點,通過云計算提供的包括應用程序的設計、開發(fā)、部署所需的一整套開發(fā)組件來開發(fā)符合組織特征的應用服務,并快速部署到云服務器。同時,云上有可供選擇的多樣化的應用程序,這些應用均以服務的形式呈現(xiàn)在用戶面前,用戶可根據(jù)自身的需求來選擇應用。
1.2 云服務與圖書館工作
云計算為人們提供了三個層面的服務,即IaaS(基礎設施即服務)、PaaS(平臺即服務)、SaaS(軟件即服務)。具體到圖書館領(lǐng)域,其內(nèi)容如下:
1.2.1 基礎設施即服務(IaaS)
基礎設施即服務也稱IaaS,其特點在于用戶無須購買、安裝和維護計算機基礎設施,而是通過付費的方式獲取基于以上設施的網(wǎng)絡存儲和數(shù)據(jù)庫等內(nèi)容的使用權(quán)限。對于圖書館來說,基礎設施建設會消耗大量資金,長期的維護和更新要求持續(xù)投入人力物力, IaaS則解決了這個問題,并大大降低了圖書館信息化建設的成本。
1.2.2 平臺即服務(PaaS)
對于PaaS來說,用戶購買的是應用平臺服務,如互聯(lián)網(wǎng)應用編程接口、運行平臺等。PaaS提供商將開發(fā)平臺作為一種服務出售給用戶,用戶利用已有的平臺服務按照自身需求來實現(xiàn)應用程序的開發(fā)、部署和運營。
面向圖書館,PaaS可以提供相對更自由一些的開發(fā)環(huán)境,它把開發(fā)平臺作為一種服務提供給人們,人們可以開發(fā)一些與其他圖書館區(qū)別開來、有針對性的、能凸顯自身特色的、符合本館需求的應用服務。
1.2.3 軟件即服務(SaaS)
SaaS即應用軟件以服務的方式提供給用戶。面向圖書館的訪問者,SaaS提供一個統(tǒng)一的門戶,用戶可以通過多種終端如PC、移動設備等隨時登錄門戶。門戶通過用戶登錄來識別用戶的不同身份,并提供相應權(quán)限的應用服務;通過門戶,不同應用程序中的各類數(shù)據(jù)可以有機結(jié)合在一起,按照用戶的需求形成個性化、靈活方便的應用服務集合。
2 圖書館建設中云計算技術(shù)運用的考量
對于圖書館來說,云計算技術(shù)將帶來新的體驗、新的服務;但是,新技術(shù)的出現(xiàn)必然對圖書館原有的組織結(jié)構(gòu)、運作模式以及資源建設產(chǎn)生一定的沖擊。我們必須清醒地認識到,新技術(shù)的利用必須與圖書館的現(xiàn)實發(fā)展情況相結(jié)合,必須圍繞著圖書館的建設來進行,不能為了利用新技術(shù)而盲目建設。綜合來講,應當具有以下幾點考慮:
(1)是否必要。云計算技術(shù)雖然是當今技術(shù)發(fā)展的一大熱潮,為人們提供了新的選擇;然而云服務也還處于一個發(fā)展和完善的過程中,圖書館的建設不能為了趕潮流盲目地向新技術(shù)靠攏,應當考慮在當前的情況下,自身是否有必要引入云計算技術(shù)。
目前,一些大型的公共圖書館和高校圖書館已建成全新的數(shù)字圖書館及相關(guān)系統(tǒng),在很短的周期內(nèi)立刻構(gòu)建云平臺,追求新的模式是沒有必要的,不但浪費時間精力,還易形成重復建設。對于一些地方圖書館和大專院校來說,在已經(jīng)形成自身特色,具有一定優(yōu)質(zhì)資源和服務模式的情況下,應當判斷新技術(shù)的采用是否能夠和自身已有的優(yōu)勢結(jié)合,形成一加一大于二的良好局面。如果對于對于新技術(shù)和本館建設的結(jié)合前景沒有科學的依據(jù)和判斷結(jié)論,那么對于云技術(shù)的應用不應操之過急。
(2)是否有助于服務品質(zhì)的提升。從目前云計算在國內(nèi)的發(fā)展來看,國內(nèi)互聯(lián)網(wǎng)公司提供的云服務多是以基于IaaS的云存儲為主,這些云存儲產(chǎn)品多是由網(wǎng)盤服務升級而成,營銷宣傳強大,業(yè)務形態(tài)簡單,尚未形成完善的云服務。
圖書館是為人們提供閱讀服務的知識中心和學習中心,無論信息技術(shù)如何發(fā)展,閱讀的主體始終是人,我們考量是否運用云計算技術(shù),應當緊緊圍繞著提高圖書館的服務品質(zhì)這一中心,不能為了技術(shù)而技術(shù)。
(3)對現(xiàn)有圖書館業(yè)務流程的影響。對大型圖書館而言,完善的業(yè)務流程是組織運行的具體行為表現(xiàn),如果打亂了管理和工作的流程,圖書館工作將會成為一盤散沙。我們應當考慮構(gòu)建符合日常業(yè)務流程的云服務,云服務的架構(gòu)不能給業(yè)務流程帶來混亂,云服務應當去貼合這些業(yè)務。在云上,數(shù)據(jù)存儲、圖書外借、圖書分類與編目等業(yè)務都被無縫連接到云平臺。云平臺應當在滿足計算資源和存儲資源按需調(diào)用的同時兼顧用戶的個性化需求。按照用戶權(quán)限形成統(tǒng)一的、連貫的、流程化的云服務,并在前端通過虛擬桌面為用戶調(diào)用各項應用服務。
(4)信息安全的考慮。云計算技術(shù)催生了大數(shù)據(jù)時代的到來,一切數(shù)據(jù),包括半結(jié)構(gòu)化的數(shù)據(jù)都具有一定的商業(yè)價值,云服務的提供商一般都是來自商業(yè)性質(zhì)的機構(gòu),雖然云服務器的容災性良好,但是在云上存儲的數(shù)據(jù)以及用戶的一切行為都是可以被獲取的。我們不能排除云計算提供商出于商業(yè)目的對用戶資料的覬覦。這也是圖書館信息安全應當考量的問題。
3 結(jié)語
在圖書館的發(fā)展過程中,歷史上每一次信息技術(shù)的變革都給圖書館帶來了新的發(fā)展機遇,伴隨著云計算技術(shù)的誕生和不斷進步,在圖書館建設中如何去利用云計算技術(shù),如何用云計算技術(shù)使圖書館的建設能跟上時展的步伐,是值得我們長久探討的課題。
參考文獻
[1] 王長宇.云計算環(huán)境下的數(shù)字圖書館信息資源建設的理性思考[J].中國科技信,2010(17):163-165.
所謂的云計算這屬于一種商業(yè)計算模型,這也就是在大量計算機所組成的資源地上分布計算任務,以便能夠?qū)⒏黜棏孟到y(tǒng)按照需求獲得信息服務、計算力以及存儲空間,從而實現(xiàn)發(fā)展網(wǎng)格計算、分布式計算以及并行計算。通常來說,云安全所包含的關(guān)鍵技術(shù)與風險應對策略主要應該從以下三個方面進行詳細闡述:
首先是數(shù)據(jù)安全。一是數(shù)據(jù)傳輸安全。在云用戶或者企業(yè)借助于網(wǎng)絡將數(shù)據(jù)傳輸?shù)焦苍频倪^程當中,黑客隨時都可以篡改與竊取數(shù)據(jù),嚴重威脅數(shù)據(jù)的真實性、保密性、可用性、完整性,這就給予云用戶造成嚴重的商業(yè)損失。而該階段所采取的保護策略就是加密傳輸數(shù)據(jù),在數(shù)據(jù)傳輸過程中使用安全傳輸協(xié)議;二是數(shù)據(jù)存儲安全。云用戶數(shù)據(jù)在對數(shù)據(jù)存儲的過程當中,所存在的安全風險由數(shù)據(jù)審計、災難恢復、隔離、數(shù)據(jù)濫用以后即存儲位置等。為有效防范被云服務提供商、惡意鄰居租戶或者部分應用濫用,那么采取的做法是在應用IaaS加密靜止數(shù)據(jù),可是針對PaaS與SaaS這類的應用過程當中,由于不能加密數(shù)據(jù),密文數(shù)據(jù)對于搜索與索引的應用造成妨礙,可是從目前的情況來看,尚未發(fā)明能夠用于商用的算法來對數(shù)據(jù)同態(tài)加密實現(xiàn),云用戶并且應該把握對數(shù)據(jù)具置維持的基本原則,另外還應該使用數(shù)據(jù)標記,數(shù)據(jù)隔離在單租戶專用數(shù)據(jù)平臺當中實現(xiàn),從而做到對數(shù)據(jù)非法訪問的防止,而災難恢復實現(xiàn)則是使用數(shù)據(jù)多備份;三是數(shù)據(jù)殘留安全。所謂的數(shù)據(jù)殘留安全就是說數(shù)據(jù)在被以某種形式擦除之后殘留的物理表現(xiàn),黨擦除存儲介質(zhì)之后,存在著一定的可能借助于某些物理特性來重建數(shù)據(jù),數(shù)據(jù)殘留在云計算背景下,存在著一定的可能對敏感信息無意當中流露,這就使得云服務提供商為做到有效保證數(shù)據(jù)完整清除,往往使用內(nèi)容發(fā)現(xiàn)、加密數(shù)據(jù)相關(guān)介質(zhì)銷毀、擦拭磁盤以及銷毀存儲介質(zhì)等方法與技術(shù)。
其次是應用安全。一是終端客戶安全。云客戶端為對應用安全進行保證,則應該做到對各項防御功能開啟,并且對于IPS類型安全控件、反惡意軟件、個人防火墻以及防病毒軟件在云客戶端進行部署,并且為做到避免瀏覽器遭受攻擊,還應該積極使用各種必要保護措施,從而做到端到端的安全在云環(huán)境當中實現(xiàn),這就要讓云用戶通過對自動更新功能的使用,從而對于瀏覽器更新與打補丁等定期完成,而其中的企業(yè)客戶必須從制度上做出嚴格的規(guī)定連接云計算應用的PC機就嚴格禁止安裝虛擬機,定期檢查PC機;二是SaaS應用安全。在安全評估選擇SaaS提供商的過程當中,應該按照相關(guān)保密協(xié)議要求,在一定情況下存在著一定的必要聘請第三方安全廠商做好黑盒安全測試這樣的滲透測試,從而能夠做到對詳實安全信息的獲得,并且對于SaaS提供商所供的訪問控制與身份驗證功能,這屬于唯一性的安全控制措施在客戶管理信息風險當中,對于云特定訪問控制機制用戶應該盡最大可能了解,通過采用必要步驟來對運載的數(shù)據(jù)進行保護;三是PaaS應用安全?;谠苹A知識對用戶采購或者創(chuàng)建的應用進行部署這屬于PssS云提供給用戶的能力,對于引擎在內(nèi)的平臺軟件與地層安全由PssS提供商負責,當如果有Web服務、組件以及第三方應用在PssS應用使用,而那些部署在PaaS平臺上面的應用的安全則是由客戶負責,云用戶部署的應用安全還應該得到PaaS應用開發(fā)商的積極配合,開發(fā)人員必須對平臺被封裝成安全對象與Web服務的安全特性熟悉。
再次是虛擬化安全。從一方面來看是虛擬化軟件安全,這種軟件層在裸機上進行直接部署,這樣所能夠提供的能力是對虛擬服務器進行創(chuàng)建、運行以及銷毀。保持著可用性與完整性的虛擬化層這有著極其重要與關(guān)鍵的保持創(chuàng)建可用性與完整性的公有云;從另外一方面來看則是虛擬服務器安全,通常來說,在虛擬機軟件之上的虛擬服務器,這就是在虛擬服務器上面運用物理服務器的安全原理和實踐,并且要做到對虛擬服務器所具備的特點兼顧,所采取的措施對具備TPM安全模塊的物理服務器進行選擇,在對服務器進行構(gòu)建當中,必須在所有的虛擬服務器分別分配出一個獨立的硬盤分區(qū),還應該嚴密監(jiān)視虛擬服務器的運行狀態(tài),以便做到對各個虛擬器當中的防火墻日志與系統(tǒng)日志進行實時監(jiān)控,從而能夠做到對所存在的安全隱患及時發(fā)現(xiàn),及時關(guān)閉不需要運行的虛擬機。
云計算對圖書館的影響
由于云計算的海量存貯和超計算能力,其已顛覆了傳統(tǒng)的應用模式,在云時代,圖書館對讀者的信息服務重點也將從最早的以硬件為中心轉(zhuǎn)向以軟件為中心、以服務為中心的時代,從根本上改變圖書館信息獲取、保存及服務的現(xiàn)存理念與方式。
1便利的軟件服務。云計算環(huán)境下,圖書館將不必購買本地安裝形式的自動化系統(tǒng)、辦公自動化系統(tǒng)以及各種類型的操作系統(tǒng)及開發(fā)軟件,所使用的軟件都是以網(wǎng)絡服務的形式由云服務商直接提供。
2實現(xiàn)更大程度信息資源的“整合”與“共享”。云計算的優(yōu)勢功能之一就是海量存貯,因而為圖書館之間的信息服務資源“整合”與“共享”提供了很大的可能和基礎,為眾多圖書館特別是有館藏建設特色的專業(yè)圖書館消除了因規(guī)格、建設特色等所導致的優(yōu)劣差異。在“云”這種信息統(tǒng)一存貯提取的高速服務模式下,全國及至全世界的圖書館可以共同構(gòu)筑一朵“圖書館信息資源云”,各個圖書館的信息資源憑借這朵“云”實現(xiàn)資源的整合和共享。
3降低相關(guān)的維護費用。為了確保圖書館工作正常平穩(wěn)的運行,圖書館人員需要經(jīng)常對計算機、服務器等終端進行維護、升級和硬件更新。而云計算模式中,服務器的日常維護由更加專業(yè)的云服務商來提供,用戶的工作強度和維護成本會大大降低。另外,由專業(yè)IT人員進行系統(tǒng)維護,能夠減少系統(tǒng)故障,減少故障恢復時間,提高IT服務水平和效率。
4革新圖書館的服務理念。利用云進行信息服務,圖書館傳統(tǒng)的信息服務業(yè)務流程將被逐一拆解,重新進行組合,呈現(xiàn)出一定的業(yè)務外包、虛擬化、技術(shù)化發(fā)展傾向,服務理念與方式將發(fā)生很大的轉(zhuǎn)變與革新。原來的服務提供者逐漸向服務提供者和服務利用者的雙重身份轉(zhuǎn)換。一方面,作為信息提供者,信息資源服務的業(yè)務外包給云計算服務商,通過虛擬化的“云”技術(shù),面向讀者的信息服務手段與方式將多樣化、全面化;另一方面,作為信息使用者,圖書館的工作人員也和讀者一樣,可以使用手機、電腦等設備在任何時間、任何地點獲得相關(guān)的“云”上任何信息服務。
5最大限度地發(fā)揮圖書館的作用。在傳統(tǒng)的圖書館服務模式下,用戶必須使用計算機才能利用圖書館的電子資源。由于云計算模式提供了強大的無線接入功能。因此,用戶可以通過使用手機、個人掌上電腦等各種類型的終端設備利用圖書館的電子資源,從而使圖書館資源中心的作用得到最大限度地發(fā)揮。
6改變圖書館的建設方向。真正實現(xiàn)云計算化的圖書館,硬件即信息資源的稀缺可通過云計算高度的共享特性來解決,硬件對一個圖書館的影響將變小,讀者真正看中的可能是對這些硬件的軟件服務,如對資源的檢索介紹、對信息的挖掘組織、知識的管理分析、館舍的人文氣氛等,這樣,圖書館必然改變目前的重藏輕用、重硬件輕服務的現(xiàn)狀。
運用云計算進行圖書館的資源建設應注意的問題
1如何建設圖書館的“云”。圖書館利用“云”進行服務,需要中圖學會,各地區(qū)省級圖書館學會、圖工委等機構(gòu)的聯(lián)絡、協(xié)調(diào)、組織,成立相關(guān)聯(lián)盟組織,與IT企業(yè)、云計算商協(xié)商合作,共同構(gòu)建發(fā)球圖書館的“云”。
2“云”能給圖書館帶來什么。云計算給圖書館帶來信息挖掘、整理、共享、高速存取等多方面的優(yōu)勢,同時,圖書館也要思考如何在“云”上把圖書館服務工作做的更好。
3云時代的版權(quán)保護。
1建立健全圖書館保密資源保護的相關(guān)制度。
2加強信息機構(gòu)網(wǎng)絡監(jiān)管和行業(yè)自律。
3加強網(wǎng)絡道德建設,強化網(wǎng)民法律意識。
中圖分類號:TP309.2
云計算就是在網(wǎng)絡環(huán)境下,以服務的形式向用戶提供海量IT資源,滿足用戶使對數(shù)據(jù)使用的需求。在供應方向用戶提供用云計算服務時,用戶將數(shù)據(jù)與應用托管至云端。以用戶的角度來看,選擇相信服務方是必然的,雙方達成戰(zhàn)略合作關(guān)系后,共同參與安全機制的擬定,為數(shù)據(jù)安全提供有力保障。以服務方的角度來看,一旦信譽瓦解,則很難立足于市場。在這樣的市場背景下,云服務供應商應結(jié)合用戶需求,研制數(shù)據(jù)安全保護技術(shù),既不會影響到數(shù)據(jù)的正常使用,又最大化降低數(shù)據(jù)安全事故的發(fā)生。
1 云計算模式下數(shù)據(jù)安全的現(xiàn)狀
眾所周知,云計算服務的提供商并不是唯一的,各提供商的性質(zhì)與規(guī)模均存在一定差異,尤其是安全防范能力與風險處理能力。綜合實力不強的服務商會逐漸被淘汰,此時,用戶交予服務商管理的數(shù)據(jù)將何去何從還是未知數(shù)。所以一般情況下,用戶會格外留意數(shù)據(jù)的提供者以及保存者。
用戶在云計算模式下執(zhí)行各項操作時,會非常重視服務的安全性。用戶認為,云服務的供應商有義務引進先進技術(shù),提高監(jiān)管力度,為服務的安全提供良好保障。然而,就筆者調(diào)查獲悉,目前市場上并未出現(xiàn)任何能夠?qū)υ朴嬎愎踢M行安全性能監(jiān)管且具有公信力的服務方。另外,相關(guān)法律法規(guī)的嚴重匱乏,也導致云計算服務商在安全保護工作上不知該如何下手。
在云計算模式中,云端環(huán)境可突破地域的約束。所以,數(shù)據(jù)的儲存并不存在任何明確的位置或步驟,任何地方均有可能成為數(shù)據(jù)儲存的中心。也正因如此,數(shù)據(jù)的風險就此增加,數(shù)據(jù)安全性將會面臨嚴峻考驗。從法律的角度出發(fā),數(shù)據(jù)安全的管轄機制上不明確,倘若直接將數(shù)據(jù)存放于其他國家,則非常有可能被他國人員或機構(gòu)肆意濫用。而且,在用戶的重要數(shù)據(jù)無法正常使用時,根本無法利用法律武器捍衛(wèi)自己的合法權(quán)益。倘若被盜取的是商業(yè)機密,將會給用戶帶來不可預計的嚴重損失。
2 云計算中數(shù)據(jù)安全的關(guān)鍵技術(shù)
隨著云計算的服務計算模式逐漸升級,動態(tài)虛擬化管理日趨成熟,租戶共享運營模式日益普及,數(shù)據(jù)安全與隱私保護工作面臨著嚴峻考驗。云計算的安全問題是云計算發(fā)展道路上最為突出的一大障礙,為使云計算突破發(fā)展瓶頸,務必結(jié)合實際需求,利用先進技術(shù)為數(shù)據(jù)安全提供可靠保障,為用戶提供更加優(yōu)質(zhì)的數(shù)據(jù)服務。
2.1 數(shù)據(jù)傳輸安全
在云計算模式中,用戶利用網(wǎng)絡,將數(shù)據(jù)輸送至云計算服務方,對其提出處理要求時,數(shù)據(jù)傳輸?shù)陌踩珕栴}至關(guān)重要。所以,云計算的安全關(guān)鍵技術(shù)可從以下幾方面著手:當用戶數(shù)據(jù)在網(wǎng)絡環(huán)境中傳輸時,對其進行加密處理,預防失竊;對云計算服務商進行監(jiān)控,確保云計算服務商在獲得用戶數(shù)據(jù)后,規(guī)范執(zhí)行正常操作,對數(shù)據(jù)進行妥善處理與保存,最大化降低數(shù)據(jù)泄露的可能性;云計算服務商在儲存數(shù)據(jù)的過程中,務必確保用戶經(jīng)權(quán)限認證后,即可獲得訪問權(quán)限,同時訪問對象僅限于自身數(shù)據(jù)。
2.2 數(shù)據(jù)儲存安全
在云計算模式中,資源共享是數(shù)據(jù)儲存的重要前提。所以,云計算服務商應采取有效措施,對不同數(shù)據(jù)進行有效隔離,避免各類數(shù)據(jù)雜糅在一起,出現(xiàn)運輸錯誤或泄露情況;另外,就算用戶已完全掌握數(shù)據(jù)存放的服務器位置,云計算服務商仍有義務,對用戶交付的數(shù)據(jù)進行備份,避免重大安全事故的發(fā)生。即使發(fā)生意外情況,用戶也不會失去所有數(shù)據(jù),用戶可在自身數(shù)據(jù)受損的情況下,向供應商索取備份數(shù)據(jù)。在云計算環(huán)境中,數(shù)據(jù)殘留問題十分嚴重,它是導致信息泄露的常見原因。為此,云計算提供商有必要在這一方面加強監(jiān)管力度,及時妥善處理數(shù)據(jù)殘留問題,為數(shù)據(jù)的安全使用提供可靠保障。
2.3 數(shù)據(jù)審計安全
在云計算模式中,云計算服務商務必確保,在滿足用戶信息數(shù)據(jù)服務需求時,不會為其他用戶的數(shù)據(jù)使用帶來不利影響。另外,筆者建議,云計算提供商可聯(lián)合第三方機構(gòu),對數(shù)據(jù)的安全性與準確性進行審計。數(shù)據(jù)審計工作不但能有效保障用戶數(shù)據(jù)安全,還會對云計算服務的穩(wěn)定發(fā)展產(chǎn)生積極影響。
3 云計算環(huán)境下的數(shù)據(jù)安全技術(shù)的應用
3.1 數(shù)據(jù)加密中的應用
數(shù)據(jù)的加密處理工作,需要在對稱加密算法密碼生成器的幫助下才能完成。具體流程為:隨機生成一個包含校驗信息的密鑰,利用非對稱加密算法對該密鑰進行加密。對經(jīng)加密算法處理后的數(shù)據(jù)信息以及密鑰密文進行處理,最終將其作為一個數(shù)據(jù)包保存至云端。在這一加密過程中,系統(tǒng)需對規(guī)模龐大的用戶數(shù)據(jù)進行對稱算法處理,將加密鑰與密文數(shù)據(jù)同時保存至云端。相較之下,用戶只需保存非對稱加密算法以及解密秘鑰即可,十分便捷。
3.2 在數(shù)據(jù)解密中的應用
當用戶需要解密數(shù)據(jù)時,首先要利用對稱加密算法的密鑰,在非對稱加密算法解密鑰的幫助下完成解密。隨后,結(jié)合密鑰通過對稱加密算法,對數(shù)據(jù)包進行解密,實現(xiàn)對原文的還原。反復進行上述操作,直到所有數(shù)據(jù)包均成功解密,最終獲得原始數(shù)據(jù)。在這一操作過程中,對稱加密算法密鑰管理問題獲得妥善解決,就算是運算規(guī)模十分龐大,也不會對該工作的正常運行造成任何困擾。
3.3 在數(shù)據(jù)認證中的應用
就目前情況來看,認證技術(shù)被廣泛應用于數(shù)據(jù)訪問與控制工作中。通常情況下,認證技術(shù)會通過身份認證,對用戶的權(quán)限加以界定,同時對身份、權(quán)限認真進行動態(tài)監(jiān)控,從根源上杜絕用戶間非法越權(quán)訪問行為的出現(xiàn)。PIK技術(shù)、動態(tài)口令技術(shù)、一次性密碼技術(shù)等,均為使用頻率較高的認證技術(shù)。
4 結(jié)束語
綜上所述,為有效避免數(shù)據(jù)安全與個人隱私遭到侵犯,大部分用戶均堅持使用現(xiàn)有內(nèi)部系統(tǒng),如此一來,云計算的應用與推廣受到一定局限性。引進科學、合理的云計算數(shù)據(jù)安全保護技術(shù),才是推動云計算健康發(fā)展的關(guān)鍵。在本文中,筆者通過對相關(guān)技術(shù)的研究,為云計算環(huán)境中的數(shù)據(jù)安全保護機制提供理論基礎與實踐依據(jù),為促進云計算的穩(wěn)定發(fā)展奠定了良好基石。
參考文獻:
[1]劉新華,胡純?nèi)?云計算中數(shù)據(jù)安全關(guān)鍵技術(shù)和解決方案[J].全國商情(理論研究),2011(04):103-104.
在各種信息、網(wǎng)絡技術(shù)飛速創(chuàng)新發(fā)展的現(xiàn)代社會,項目管理中的多數(shù)項目都已應用了先進的計算機運用技術(shù)。正是因為計算機技術(shù)的運用,使得項目管理的操作流程得以快速優(yōu)化和集成實現(xiàn)。因此,項目管理領(lǐng)域的業(yè)內(nèi)人士十分注重探究計算機相關(guān)技術(shù)的實際運用。
1項目管理的含義及相關(guān)內(nèi)容概析
1.1內(nèi)涵解析
項目管理的實際操作中涉及到很多方面的數(shù)據(jù)、信息,管理工作的重點在于匯集、整合、處理、保存及傳輸、運用這些信息資源,將一系列有關(guān)項目運行的信息資源進行系統(tǒng)整合管理,直接影響到整個項目的運作效率與管理成效?;诖?,項目信息就為項目管理當中的關(guān)鍵內(nèi)容,由于項目信息的種類繁多、交流方式較多,管理的過程中會牽涉到很多實際問題,引入計算機的相關(guān)運用技術(shù)可極大地簡化管理程序,使管理項目得以更好地規(guī)劃及開展。項目信息囊括了和項目相關(guān)的所有數(shù)據(jù)與資料,例如,項目組織、日常管理、技術(shù)信息、經(jīng)濟管理、法規(guī)及條例等多方面內(nèi)容。
1.2項目管理建設的具體目標
項目信息的實際管理流程為:匯集各類數(shù)據(jù)-轉(zhuǎn)換為相應信息-憑信息做出決策-得到最終結(jié)果。由此得出,項目實踐中要出現(xiàn)大規(guī)模數(shù)據(jù)及有關(guān)的材料,管理這些數(shù)據(jù)、材料的實現(xiàn)步驟為:獲取-收集-保存-整合-傳輸。信息整合及傳輸?shù)倪^程正是各類信息相互整合、交流的過程,因此,管理人員在施行項目管理之前,要弄清楚各種項目間的信息互承聯(lián)系,避免信息交接時出現(xiàn)誤差乃至錯誤。目前,制作信息管理的運作體系圖是實現(xiàn)快速、有效管理的關(guān)鍵點。制定一個項目管理的總體操作流程,首先要分解各個項目的運作結(jié)構(gòu),獲取系統(tǒng)信息之后,運用規(guī)范化、科學化的技術(shù)手段對其進行統(tǒng)籌規(guī)劃,以確保各類信息得以正常傳遞,并維護傳輸?shù)牧鲿承?、穩(wěn)定性。
2項目管理當中運用計算機技術(shù)的效果探究
2.1計算機相關(guān)技術(shù)用于提升管理效率
項目工程在策劃、啟動和實踐的全過程當中必然要形成多種多樣的項目信息,例如,合同簽訂文書、規(guī)劃圖紙、各類報告、圖像信息等,對以上信息展開綜合、系統(tǒng)管理時,需要一個科學而規(guī)范的體系作為重要保障。建立這樣的管理運行體系,應借助先進的計算機相關(guān)技術(shù)開展信息管理建設,進而構(gòu)建出可供更多人員進行信息交流的操作平臺。運用先進網(wǎng)絡技術(shù)建設信息管理操作平臺前,要把相關(guān)信息分成質(zhì)量控制信息、策劃管理信息、安全防護信息等幾個專項板塊,進而把相關(guān)信息系統(tǒng)地整合到相應板塊當中,并采取超文本的格式編寫出各類項目信息,進而將這些經(jīng)過處理的信息放于網(wǎng)絡上推廣、傳播,既可以提升項目工作的實踐效率,又可以降低信息工作的管理難度。
2.2計算機相關(guān)技術(shù)用于實現(xiàn)全面控制
網(wǎng)絡技術(shù)在項目工程中運用計算機相關(guān)技術(shù),能夠形成全程跟蹤式的管理模式。經(jīng)技術(shù)處理的各類編碼具有更強的可信性與精確性,項目工作中運用此類信息可進一步提高運行效率。例如,項目管理中涉及到許多子項目的評估工作,為做出最優(yōu)的操作決策,管理者需借助網(wǎng)絡技術(shù)改進項目評估的流程和方式,通過簡化復雜的子項目信息加快數(shù)據(jù)整合速度,可以顯著提升管理效率和增加經(jīng)濟收益。網(wǎng)絡技術(shù)引入到項目信息的管理當中,會按每個項目的具體情況實施進度管理、系統(tǒng)策劃、造價評估、質(zhì)量監(jiān)控、機械和材料檢測等多方面工作的全面控制,如此可在保證質(zhì)量的條件下,將管理成本降低到最低水平,大大節(jié)省項目管理的經(jīng)濟支出。此外,運用相關(guān)網(wǎng)絡技術(shù)的同時,項目管理能夠借助十分便捷的信息交流工具實現(xiàn)跨空間的快速溝通,使各種信息交流工作得以順利進行。例如,計算機介入項目信息的綜合管理后,每位工作人員都能在信息操作平臺中獲取到所需的相關(guān)信息,實現(xiàn)了工作信息的全面共享。
2.3計算機相關(guān)技術(shù)用于完善管理機制
項目管理當中采用各種網(wǎng)絡技術(shù),可將總系統(tǒng)中包含的各個子系統(tǒng)及下屬板塊內(nèi)包含的全部信息進行綜合處理,經(jīng)處理后的信息能夠充分滿足管理者的操作需求,大幅度地提升了管理效率。項目工作者憑借這些信息可以開展決策評估,為負責人的重要工作提供有用信息。處理項目工程實踐過程中的各種問題時,計算機技術(shù)能按照資源情況開展實時控制,結(jié)合工程進度調(diào)度、配置項目信息,管理軟件在其中起到“合理分配”、“高效服務”的作用。若資源服務時間超出設定標準,系統(tǒng)將自行開啟警示裝置,使各類資源得到充分、合理地運用。
2.4計算機相關(guān)技術(shù)用于管理項目物資
項目信息的流通性、變化性決定了項目管理的工作性質(zhì),物資管理作為項目管理當中的重要內(nèi)容,會對工程造價形成很大影響。尤其是比較大型的項目需要用到許多物資,但市場中的物資價格變化較快,想要很好地管理項目的各類物資,應借助計算機技術(shù)構(gòu)建一個規(guī)范的物資規(guī)劃系統(tǒng),把規(guī)劃、審批、購置、保存、發(fā)放、維護等各類信息納入這一系統(tǒng)中,以增強物資供應的平衡性,使項目物資的管理水平得到顯著提高。
3結(jié)束語
項目管理作為一個動態(tài)化的工作過程,當中涉及的各類項目信息需要計算機技術(shù)進行科學、規(guī)范管理。將計算機相關(guān)技術(shù)引入到項目信息管理工作中,既能夠改善項目信息管理的效率,又能夠提高實際管理工作的質(zhì)量,有效地提升了項目工程的總體質(zhì)量。值得提出的是,項目管理中遇到各種問題時,管理者要結(jié)合實際情況應用計算機技術(shù),使先進技術(shù)能夠更好地服務于項目信息管理及其相關(guān)工作。
參考文獻
[1]李躍輝.淺談計算機信息系統(tǒng)集成項目管理--基于需求變更與范圍管理[J].技術(shù)與市場,2013,20(5):249-252.
隨著經(jīng)濟技術(shù)的不斷發(fā)展,計算機科學的應用逐漸普及,各種工程項目在實施時都離不開計算機的協(xié)同幫助。所以,針對目前大型項目工程建設的需要,當下應改變傳統(tǒng)的項目管理理念,融入新技術(shù)的管理理論和手段,促進項目的成功。計算機協(xié)同技術(shù)的出現(xiàn)能為工程項目完美收工奠定基礎。
1協(xié)同技術(shù)
協(xié)同科學的研究多基于計算機信息技術(shù)的研究,即建立計算機信息共享平臺,這就是基于計算機系統(tǒng)支持的協(xié)同技術(shù)。計算機協(xié)同技術(shù)是指在地域分散的群體間,所有的群體借助計算機、互聯(lián)網(wǎng)的聯(lián)系以及相關(guān)技術(shù),通過共同的協(xié)作來完成手中的任務。具體而言,計算機協(xié)同技術(shù)主要包括群組通信技術(shù)、協(xié)作控制機制、應用共享技術(shù)以及多媒體技術(shù)等。作為用于人類完成協(xié)同工作的重要工具,計算機協(xié)同技術(shù)具有極其重要的現(xiàn)實意義。
2協(xié)同技術(shù)與項目管理的聯(lián)系
一項工程之中的項目管理涉及范圍廣,包括很多方面,主要有項目主體、進度、合同、資源、采購、成本、質(zhì)量、風險、信息與溝通等,所以,在項目管理的具體實施過程中,多數(shù)的方式、方法是圍繞這些進行的。在當前的技術(shù)研究程度上,計算機的普及為項目管理研究技術(shù)提供了巨大的幫助,很多有計劃性的實施方法也建立在計算機科學技術(shù)發(fā)展的基礎之上,所以,計算機協(xié)同技術(shù)與項目管理的聯(lián)系是具有必然性的。
3計算機協(xié)同技術(shù)在管理中的作用形式
計算機在當前人們的生活中已經(jīng)不再陌生,隨著經(jīng)濟的發(fā)展人們,日常生活中已經(jīng)離不開計算機。在管理工作中,采用計算機的管理模式更是便捷、簡單的代表。
3.1計算機的映像處理模式
在項目管理中,信息的傳遞需要靠書面材料來進行。此時,計算機的圖像儲存作用展現(xiàn)了出來,當需要的業(yè)務材料需要被存儲到計算機中進一步應用時,即協(xié)同技術(shù)對項目管理反應的過程。人們需要將所有的紙質(zhì)業(yè)務資料和數(shù)據(jù)轉(zhuǎn)化成電子格式,并錄入計算機中,由計算機統(tǒng)一完成業(yè)務資料的處理和傳遞。特別是在協(xié)同技術(shù)中的多媒體技術(shù)可以對數(shù)量龐大的業(yè)務資料進行壓縮處理,將平面的文字信息轉(zhuǎn)化成動態(tài)的音頻、視頻格式。該模式大大減少了工作人員的任務量,并能有效提升項目管理的質(zhì)量和管理效率。
3.2文檔管理
文檔管理是人們利用計算機進行的基礎性管理。在當前的項目工程中,文件數(shù)量非常多,完全依靠人工處理,比如手寫起草文件等已經(jīng)無法滿足龐大的文檔管理需求。此時,需要利用專門的計算機軟件以提升管理效率。比如,可以利用專業(yè)的書寫軟件(Word文檔等)進行各種內(nèi)容的記錄。文檔也是當前信息管理的基本功能,比如重要事務文檔的儲存、某些需要修改的文檔處理、文檔的分發(fā)等,均可利用計算機技術(shù)大大提高工作效率。
3.3電子郵件
項目工程內(nèi)容復雜繁多,涉及人員較多,導致人與人之間的交流、探討需要跨時間、跨空間、跨地域進行,這就要求應充分利用計算機的協(xié)同技術(shù),促進項目管理人員之間的溝通交流。電子郵件的使用可以很好地滿足當前項目工程的管理需要,在各部門交流時可以通過計算機郵件進行,不僅能徹底打破以往時間和空間上的限制,電子郵件的高效性和便捷性還能以最快的速度和最簡便的方式來解決問題,幫助人們實現(xiàn)隨時隨地交流和溝通的目的。
3.4業(yè)務過程重構(gòu)結(jié)構(gòu)化系統(tǒng)設計工具
業(yè)務過程重構(gòu)工具是指利用計算機技術(shù)分析、建模、重定義組織內(nèi)的核心業(yè)務或業(yè)務核心的相關(guān)角色改變造成的影響的信息技術(shù)手段。
3.5工作流管理系統(tǒng)
項目管理就是對任務的各個人員和任務的支配性工作,每一項工程項目都包含眾多的人員和任務,這樣利用計算機技術(shù)建立起的工作流管理系統(tǒng)可以清晰、便捷地安排各項工作。比如,在建筑工程項目中,需要就各方面(業(yè)主、承包商、設計公司等)的需求考慮合同的變更問題。當項目合同中明確規(guī)定的內(nèi)容需要變更時,可以將各方同意的變更處理流程輸入工作流程管理系統(tǒng)中,由該系統(tǒng)進行科學、合理的分析,進而分配人員和資源,并對各項工作按規(guī)定時間通知工作人員。如果直接負責人沒有回復通知,則系統(tǒng)會對相關(guān)人員進行通知,保證工作流程銜接到位。
4結(jié)束語
目前,人們注重對計算機協(xié)同技術(shù)的研究和各種工作軟件的研發(fā),新興的互聯(lián)網(wǎng)技術(shù)為項目管理工作帶來了便捷,促進了項目管理工作的順利進行。這對很多行業(yè)的項目管理工作有巨大的幫助。本文對計算機協(xié)同技術(shù)的內(nèi)容進行了簡要介紹,立足于協(xié)同技術(shù)與項目管理系統(tǒng)之間的緊密聯(lián)系,分別從計算機的映像處理模式、電子郵件、文檔管理、工作流管理系統(tǒng)等方面對計算機協(xié)同技術(shù)在項目管理中的應用進行了簡要闡述,驗證了計算機協(xié)同技術(shù)能有效提升項目管理質(zhì)量和管理效率的結(jié)論。在未來,各個行業(yè)應積極引進以計算機協(xié)同技術(shù)為主導的項目管理方式,從而將項目管理水平提升至一個全新的高度。
作者:徐鑒 單位:重慶市西南計算機有限責任公司
中圖分類號:TP393文獻標識碼:A文章編號:1009-3044(2012)13-3209-03
Data Management Technology for Cloud Computing
WANG Cheng1, ZHAO Bi-fang2
(1.Wells Fargo Bank, West Des Moines, 50266,USA; 2.ASDI Inc, West Des Moines, 50266,USA)
Abstract: Firstly, the definition of cloud computing and cloud computing, data management techniques were introduced, the depth of analysis of current Internet mainstream cloud the basic principles of data management systems, and concluded that the main research directions of the cloud the field of data management. And the existing problems and future research focus are discussed to provide a basis for further research.
Key words: cloud computing; resource management; cloud storage; distributed computing
云計算(Cloud Computing)是網(wǎng)格計算(Grid Computing)、分布式計算(Distributed Computing)、效用計算(Utility Computing)、并行計算(Parallel Computing)、負載均衡(Load Balance)、虛擬化(Virtualization)、網(wǎng)絡存儲(Network Storage Technologies)等傳統(tǒng)技術(shù)發(fā)展融合的產(chǎn)物,是目前比較流行的名詞[1-2]。廣義上的云計算指通過計算機網(wǎng)絡以易擴展、按需的方式獲得所需服務,主要是指服務的使用與交付模式[4],服務可以是其他服務。通過以上陳述,筆者認為,狹義云計算是指以網(wǎng)絡為媒介,通過按需、易擴展的方式從而能獲得所需要的資源,即IT基礎設施的交付和使用模式[3]。
云計算主要包括以下三個層次服務:(1)軟件即服務(SaaS);(2)平臺即服務(PaaS);(3)基礎設施即服務(IaaS)[5]。由于云技術(shù)需要有大量的用戶參與其中,這就會造成諸多隱私問題。譬如用戶參與涉及到收集部分用戶數(shù)據(jù),勢必會引發(fā)用戶數(shù)據(jù)安全問題,很多使用者會擔心自身的隱私會被云技術(shù)收集從而暴露。因此,很多廠商都在加入云計劃的同時均會表示盡量避免收集用戶的安全隱私,若不慎收集到也不將此泄露甚至使用,給他人造成不便。但在實際情況中仍有不少人質(zhì)疑廠商的承諾,這是因為仍有不少知名廠商在此期間都被指責有可能泄露用戶隱私,且泄露事件也確有其事。
1云數(shù)據(jù)管理研究現(xiàn)狀
1.1 Google File System文件系統(tǒng)(GFS)
Google有一套自身專屬的云計算平臺,該平臺是為Google提供最重要的搜索應用提供服務,目前已擴展到其他應用程序[6-7]。Google的云計算基礎架構(gòu)模式包括4個相互獨立又緊密結(jié)合在一起的系統(tǒng): Google File System分布式文件系統(tǒng),針對Google應用程序的特點提出的MapReduce編程模式,分布式的鎖機制Chubby以及Google開發(fā)的模型簡化的大規(guī)模分布式數(shù)據(jù)庫BigTable。除了性能,可伸縮性、可靠性以及可用性以外,GFS設計還受到Google應用負載和技術(shù)環(huán)境的影響。圖1給出了Google File System的系統(tǒng)架構(gòu)[8]。
1.2 MapReduce分布式編程環(huán)境
Google簡化分布式系統(tǒng)的編程是通過構(gòu)造MapReduce編程規(guī)范來實現(xiàn)的。程序員只需將注意力放在應用程序本身,由平臺來處理關(guān)于集群的處理問題(包括可擴展性與可靠性)[9-10]。MapReduce運算基本單元通過“映射”和“化簡”來構(gòu)成,用戶只需提供自己的Map函數(shù)以及Reduce函數(shù)即可并行處理海量數(shù)據(jù)。圖2給出了MapReduce執(zhí)行過程,該過程分為Map和Reduce兩個階段,在兩個階段之間還有一個中間的分類階段,即將中間結(jié)果包含相同的key的中間結(jié)果交給同一個Reduce函數(shù)去執(zhí)行,另外兩個階段都使用了集群中的所有節(jié)點[11-12]。
圖1 Google File System的系統(tǒng)架構(gòu)
圖2 MapReduce處理程序的執(zhí)行過程
1.3分布式的大規(guī)模數(shù)據(jù)庫管理系統(tǒng)BigTable
由于有部分的Google應用程序需要對大量的格式化或半格式的化數(shù)據(jù)進行有效處理, Google構(gòu)建了大規(guī)模數(shù)據(jù)庫系統(tǒng)Big? Table,該系統(tǒng)有弱一致性要求。BigTable的應用包括Maps,Orkut,Search History,RSS閱讀器等。BigTable數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)模型如圖3[13]。數(shù)據(jù)模型所有的數(shù)據(jù)都存放在表格單元中,包括行列以及相應的時間戳。BigTable的內(nèi)容按照行來劃分,將多個行組成一個小表(這個小表稱為Table),保存到某一個服務器節(jié)點中。
圖3 Google BigTable的數(shù)據(jù)模型
2存在的問題與未來研究熱點
云計算是一種處理大規(guī)模密集型數(shù)據(jù)的并行分布式計算技術(shù),目前已有的云計算編程模型以MapReduce典型為代表,其他的大體上是這種方式的變種。谷歌公司開發(fā)的編程架構(gòu)MapReduce簡化了編程人員的工作,并且使數(shù)據(jù)的處理效率提高,因此MapReduce受到了較多的關(guān)注,獲得了較大的發(fā)展,但還沒有形成成熟的、系統(tǒng)化的理論體系,并且在面對計算過程相對復雜的計算任務時,這種簡單的編程模型將可能效率低下,甚至有些復雜的計算任務會因為這種分解方式而不能收斂[14-16]。
一般來說云計算的終端用戶應該不用考慮分布式并行處理系統(tǒng)方面的細節(jié)問題,就可以享受云計算所帶來的的各種服務。但是隨著企業(yè)數(shù)據(jù)密集型大規(guī)模計算需求的出現(xiàn),現(xiàn)有編程模型還面臨著更多的新挑戰(zhàn)。一方面石化企業(yè)遺留了大量歷史數(shù)據(jù),并且石化企業(yè)每年產(chǎn)生的數(shù)據(jù)已達到PB(拍字節(jié),1015B)數(shù)量級,其總量不僅成幾何級數(shù)增長,其結(jié)構(gòu)也呈現(xiàn)連續(xù)的高維時空特性,較傳統(tǒng)的二維關(guān)系表和結(jié)構(gòu)的萬維網(wǎng)數(shù)據(jù)更復雜多變。隨著數(shù)據(jù)總量和復雜性的增加,用戶的查詢需求越來越多,也越來越復雜?!皵?shù)據(jù)在,找不到”的問題日益嚴重,如何有效地在云計算平臺中存儲和管理海量數(shù)據(jù),成為其中的新的難題。另一方面在數(shù)據(jù)密集型大規(guī)模計算系統(tǒng)中,影響性能的重要因素包括了大規(guī)模數(shù)據(jù)的移動、復雜計算的局部性、多任務的調(diào)度等操作,為了兼顧簡單性及性能優(yōu)化,編程模型需要對上述影響因素提供適當?shù)耐该餍浴?/p>
云計算需要對大量分散的數(shù)據(jù)進行集中處理和分析,這就要求數(shù)據(jù)管理技術(shù)需能對大量數(shù)據(jù)進行高效管理。如何在規(guī)模龐大的分布式數(shù)據(jù)中快速準確的找到目標數(shù)據(jù),也是云計算數(shù)據(jù)管理技術(shù)所必須解決的問題。同時,由于管理形式的不同造成傳統(tǒng)的SQL數(shù)據(jù)庫接口無法直接移植到云管理系統(tǒng)中來。另外,在云數(shù)據(jù)管理方面,如何保證數(shù)據(jù)安全性和數(shù)據(jù)訪問高效性也是研究關(guān)注的重點問題之一。
3結(jié)束語
本文首先對云計算的定義及云計算中數(shù)據(jù)管理技術(shù)進行了介紹,之后詳細闡述云計算數(shù)據(jù)管理技術(shù)的研究現(xiàn)狀,并對目前存在的問題與未來研究熱點進行了探討,為進一步的研究提供依據(jù)。
參考文獻:
[1]徐志偉,廖華明,余海燕.網(wǎng)絡計算系統(tǒng)的分類研究[J].計算機學報,2008,31(9):1509-1515.
[2]鐘偉彬,周梁月,潘軍彪,等.云計算終端的現(xiàn)狀和發(fā)展趨勢[J].電信科學,2010,26(3):22-26.
[3] Armbrust M,Fox A,Griffith R,etc.A view of cloud computing[J].Communication of the ACM,2010,53(4):50-58.
[4]陳康.云計算后臺大規(guī)模數(shù)據(jù)處理技術(shù)探討[J].電信工程技術(shù)與標準化,2009,22(11):12-16.
[5]陳康,鄭緯民.云計算:系統(tǒng)實例與研究現(xiàn)狀[J].軟件學報,2009,20(5):1337-1348.
[6]李曉偉,沈艷秋.云計算及其發(fā)展進程[J].科技信息,2011,15(2):1-3.
[7] Rodrigo N,Calheiros,Rajiv Ranjan,Anton Beloglazov,etc.CloudSim: a toolkit for modeling and simulation of cloud computing environments and evaluation of resource provisioning algorithms [J].Software-Practice & Experience,2011,41(1):23-50.
[8] Mark Stillwell,David Schanzenbach,Frederic Vivien,etc.Resource allocation algorithms for virtualized service hosting platforms[J].Journal of Parallel and Distributed Computing,2010,70(9):962-974.
[9]柳敬.云計算平臺的成本效用研究[D].北京:北京郵電大學,2010.
[10]劉少偉,孔令梅,任開軍,等.云環(huán)境下優(yōu)化科學工作流執(zhí)行性能的兩階段數(shù)據(jù)放置與任務調(diào)度策略[J].計算機學報,2011,34(11):2121-2130.
[11]白蛟,全春來,郭鎮(zhèn).基于物聯(lián)網(wǎng)的公共安全云計算平臺[J].計算機工程與設計,2011,32(11):3696-3700.
[12] Daniel Warneke,Odej Kao.Exploiting Dynamic Resource Allocation for Efficient Parallel Data Processing in the Cloud[J].IEEE Transac tions on Parallel and Distributed Systems,2011,22(6):1045-9219.
[13]劉曉茜.云計算數(shù)據(jù)中心結(jié)構(gòu)及其調(diào)度機制研究[D].合肥:中國科學技術(shù)大學,2011.
1.1云計算數(shù)據(jù)庫的簡述
云計算在本質(zhì)上可以理解為顯示的基礎構(gòu)架和服務器虛擬化的技術(shù)的相互結(jié)合所形成的一種技術(shù)。這種技術(shù)的核心就是把其中的某些數(shù)據(jù)根據(jù)所建立的數(shù)據(jù)中心庫虛擬化之后,然后提供給用戶使用,這是一種很重要的運作形式,這種提供計算服務和資源的已經(jīng)很常見了,并不是一項新型的技術(shù),但是這是新的創(chuàng)新模式。云計算具有其特有的特征:1)云計算的數(shù)據(jù)是存在網(wǎng)絡云端上的,同時這些應用也是存儲在網(wǎng)絡云端的,這些對于企業(yè)和個人用戶來說是開放透明的,往往這種數(shù)據(jù)和資源是由第三方所支持和提供的;2)云計算特別注重服務,強調(diào)服務,往往在現(xiàn)有的商業(yè)模式上根據(jù)用戶的使用需求,來進行計費的。這種模式可以達到互惠互利的目的實行共贏;3)云計算是可以把互聯(lián)網(wǎng)當做發(fā)揮的舞臺,同時把互聯(lián)網(wǎng)的瀏覽系統(tǒng)當做計算的新型模式。數(shù)據(jù)庫指的是一種服務形式,這一般的使用者可以獲得自己然后通過接口的模式進行連接,這在以前是一種特別的計算服務,同時這些用戶是有著巨大的計算需求。
1.2 云計算數(shù)據(jù)庫的現(xiàn)狀
現(xiàn)在互聯(lián)網(wǎng)技術(shù)正在飛速的發(fā)展,云計算數(shù)據(jù)庫已經(jīng)悄悄的出現(xiàn)在我們的生活中了。云計算進行大規(guī)模的計算需要大量的,性能良好的硬件設備,這些硬件設備往往是由大量的服務器所組成的。通過這種互聯(lián)網(wǎng)的強大的計算能力,企業(yè)和我們的個人用戶就可以從中獲得自己所需要的計算結(jié)果,在未來的發(fā)展中,云計算數(shù)據(jù)庫很可能實現(xiàn)一種通過廣域網(wǎng)的途徑來為一些大型或者超大型的企業(yè)提供計算能力的服務模式。這種模式的優(yōu)點就是一方面不需要投資大量的硬件設備,方便快捷?,F(xiàn)在的云計算書籍庫的市場基本是由谷歌的Bigtable,甲骨文開源的BerkeyDB,亞馬遜的simpleDB,APPJet的APPJet所占據(jù)。這些都是最近幾年內(nèi)發(fā)展起來的,其中亞馬遜和谷歌占據(jù)了半壁江山。在管理機構(gòu)上是數(shù)據(jù)結(jié)構(gòu)分布式的存儲是谷歌Bigtable的一個重要特點,最初的設計目的也是為了實現(xiàn)是數(shù)據(jù)存儲的單元系統(tǒng)能夠進一步的擴展。這可以通過成千上萬的網(wǎng)絡服務器完成PB級的網(wǎng)絡儲存數(shù)據(jù),而亞馬遜的simpleDB則是一種高效率,高靈活性,高擴展性和可容性的存儲模式,這種數(shù)據(jù)查詢和數(shù)據(jù)存儲方式是由公司的開發(fā)和技術(shù)人員開發(fā)的,他們通過向網(wǎng)絡的數(shù)據(jù)服務器發(fā)出請求,這些都是可以通過亞馬遜的這個云計算數(shù)據(jù)平臺來完成。
1.3 云計算數(shù)據(jù)庫存在的問題
1.3.1 沒有足夠的安全性
現(xiàn)在的云計算數(shù)據(jù)庫也是剛剛被應用,技術(shù)還沒有足夠的成熟,在數(shù)據(jù)的傳輸和存儲過程中很容易丟失,被惡意的程序刪除,篡改,這使得企業(yè)和用戶的數(shù)據(jù)得到泄露,影響用戶的正常使用。同時,這種用戶數(shù)據(jù)泄露,往往云計算運行商也是有很大的責任的。而且,在數(shù)據(jù)上沒有辦法沒有達到一定的統(tǒng)一性,在使用云計算的數(shù)據(jù)庫的時候我們應該考慮數(shù)據(jù)庫的可靠性,一致性,可用性等方面。
1.3.2 某些傳統(tǒng)的功能無法實現(xiàn)
在傳統(tǒng)的數(shù)據(jù)庫中,這些數(shù)據(jù)的邊界和使用設備的用戶都是可以很好的被定義,這種是通過邏輯和安全方面來定義的。在云計算的數(shù)據(jù)庫中這種功能是沒有得到開發(fā)和應用的。同時,現(xiàn)在的企業(yè)和個人用戶,沒有權(quán)限訪問這種數(shù)據(jù)資源,往往被提示非授權(quán)訪問,沒有被事先授權(quán),得到這份系統(tǒng)的權(quán)利,但是可以訪問計算機和互聯(lián)網(wǎng)上的某些資源。在這個計算系統(tǒng)中,有著優(yōu)先訪問資格的往往的云計算中的數(shù)據(jù)庫服務商,而不是個人和企業(yè)。
2 云計算數(shù)據(jù)庫在智能電網(wǎng)中的廣泛運用
由于云計算數(shù)據(jù)庫在智能電網(wǎng)的運用,現(xiàn)在的智能電網(wǎng)可以用來數(shù)據(jù)更多的電網(wǎng)云。這種方式構(gòu)建的電網(wǎng)可以為人們提供更加高效、安全、可靠、環(huán)保的電力安全系統(tǒng),這可以實現(xiàn)多種能源的發(fā)電方式協(xié)調(diào)運轉(zhuǎn),同時滿足高度市場化的電力的商業(yè)需求。
電網(wǎng)的信息種類繁多,人戶請求次數(shù)不斷的增加,大量的數(shù)據(jù)同時請求,傳統(tǒng)的電網(wǎng)計算模式已經(jīng)很難滿足這種數(shù)據(jù)請求的需要。而智能電網(wǎng)在云技術(shù)的支持下,對大規(guī)模的數(shù)據(jù)進行分析和處理,對海量的請求數(shù)據(jù)進行分析,優(yōu)化和設計,決策,快速的進行回應。采用云計算數(shù)據(jù)庫技術(shù)的電網(wǎng)可以分為四個層次,從上到下依次為:1)物理存儲層。物理存儲層指的是在智能電網(wǎng)中的一些物理網(wǎng)絡設備,這是網(wǎng)絡存儲的基礎。2)基礎管理層,基礎管理層指的就是為達到智能電網(wǎng)中所有程序和設備的協(xié)調(diào)一致的運行,所用的方法就是通過分布和集群式的系統(tǒng)來完成的。3)應用接口層,應用接口層的使用,可以使得管理機構(gòu)和權(quán)限使用根據(jù)這自己的需求和所擁有的權(quán)限,選用不同的接口,提供不同的服務。運用這種形式的智能電網(wǎng)云,可以使各級電網(wǎng)通過公共的接口進行接入和登陸,從而獲得相應的數(shù)據(jù),信息和服務。4)高級訪問層,這種系統(tǒng)也是運用云計算數(shù)據(jù)庫的形式,這種感覺高級訪問層,可以為提供電力系數(shù)的電力軟件提供強大的運行平臺和軟件平臺。這樣智能電網(wǎng)中的海量數(shù)據(jù)便可以很輕松的處理。
3 云計算數(shù)據(jù)庫在遠程教學中的運用
現(xiàn)在在網(wǎng)絡教學中,最重要的是資源的共享和利用,這是不受時間和空間限制的。而且最重要的是學習者可以根據(jù)自身的學習進度和自己的學習能力去安排這些時間和資源。這些是傳統(tǒng)的網(wǎng)上教學所不具備的特點。但客觀上講,運用云計算的數(shù)據(jù)庫是可以實現(xiàn)的利用云計算的優(yōu)勢我們可以很好的解決現(xiàn)實學習中的一些問題,比如機械設計,自動化專業(yè)和數(shù)控技術(shù)這些要求的學習設備和學習軟件都特別昂貴,這方面的學員又是比較少的,為很少的學員提供一整套的學習設備是很浪費的,而運用這種云計算數(shù)據(jù)庫在教學方面可以很好的向?qū)W員提供優(yōu)質(zhì)的、方便的、全方位的服務。
4 云計算數(shù)據(jù)庫系統(tǒng)未來的發(fā)展前景和方向
云技術(shù)在現(xiàn)在的電腦技術(shù)中不斷的被創(chuàng)新發(fā)現(xiàn)。這種技術(shù)可以使得多個計算機使用同一個系統(tǒng),同一個數(shù)據(jù)庫資源,儲存所有的客戶的使用數(shù)據(jù)。在現(xiàn)在的云數(shù)據(jù)庫中,其本身就有很好的擴展性,在應用中和join操作相互配合,這樣可以使得不易被兼并操作進行的join操作所取代。根據(jù)云計算數(shù)據(jù)庫市場的發(fā)展特點和需求,現(xiàn)在的NoS QL數(shù)據(jù)庫將會是最好的計算方法。這種推測的根源是NoSQL數(shù)據(jù)庫具有分布式,水平可擴展性,非關(guān)系性等特點,非常適合云計算的海量數(shù)據(jù)的計算。NoSQL,是一種非關(guān)系型的數(shù)據(jù)庫。在互聯(lián)網(wǎng)網(wǎng)站的大量出現(xiàn)中,傳統(tǒng)的web2.0網(wǎng)站已經(jīng)滿足不了市場的需求,出現(xiàn)了很多無法克服的問題,在這種背景下,非關(guān)系型數(shù)據(jù)庫卻得到了很好的發(fā)展。同時,另外的一項云技術(shù)的發(fā)展方向就是共享磁盤數(shù)據(jù)庫構(gòu)架,這項技術(shù)也將會成為一項理想的云計算技術(shù),這種技術(shù)可以使低成本的服務器和設備進行單一的數(shù)據(jù)采集,這樣可以為用戶提供區(qū)域網(wǎng)絡和附加存儲網(wǎng)絡。
這些運行模式和技術(shù)的使用將會節(jié)省大量的硬件設備資源,同時也會大量的節(jié)省運營成本。
5 結(jié)束語
在現(xiàn)實的生活中,云計算數(shù)據(jù)庫的運用十分廣泛。云計算數(shù)據(jù)庫處理給人們的生活帶來了極大的便利,個人和企業(yè)可以對大型的數(shù)據(jù)進行處理和運算。相信在未來的發(fā)展中,云計算數(shù)據(jù)庫也會發(fā)展的更加的迅速,更大范圍的應用在人類的生活中。
中圖分類號:TP39 文獻標識碼:A 文章編號:1007-9416(2015)12-0000-00
1前言
隨著計算機技術(shù)的不斷發(fā)展進步,計算機網(wǎng)絡技術(shù)也得到了迅速的發(fā)展,人們的生產(chǎn)生活越來越依賴于計算機網(wǎng)絡技術(shù)。利用計算機網(wǎng)絡對項目信息進行管理,不但可以減少管理人員的工作量,提高工作效率,而且可以提高項目管理人員的管理水平,進而提高相關(guān)項目的經(jīng)濟效益。因此,項目信息管理人員應該與時俱進,深入研究計算機網(wǎng)絡技術(shù)對項目信息管理的重要影響,并合理利用計算機網(wǎng)絡技術(shù)進行項目信息管理,提高項目管理的質(zhì)量,提高項目的經(jīng)濟效益,進而增強相關(guān)企業(yè)在市場中的競爭力。
2計算機網(wǎng)絡技術(shù)對項目信息管理的影響分析
2.1有利于提高項目信息管理的效率
在某個項目的啟動和實施中,往往會有很多信息需要管理,比如合同、報告、設計的圖紙,只有管理好這些信息,才能保證項目的正常運行。因此,項目信息管理人員可以利用計算機網(wǎng)絡技術(shù),構(gòu)建一個公共的信息交流平臺,按照相關(guān)標準處理信息,然后把處理好的信息公布到信息交流平臺上,讓項目參與人員能夠自主獲取信息。這樣一來,有利于加快信息的交流速度,減少項目信息管理人員的工作量,進而提高項目信息管理的效率。
2.2有利于實現(xiàn)信息的全方位控制
利用計算機網(wǎng)絡技術(shù)進行項目信息管理時,管理人員不僅可以全過程地對項目信息進行管理,而且可以在信息的編碼、分類、篩選等工作中利用計算機網(wǎng)絡技術(shù),從而確保項目信息的可靠性和精確性[1]。
2.3有利于加強項目信息的交流
在項目信息管理中運用計算機網(wǎng)絡技術(shù)可以讓項目相關(guān)工作人員之間的交流更加便捷,實現(xiàn)項目信息管理人員與項目工作人員之間的無障礙、快速交流,提高各工作人員之間的配合度,進而保證項目的順利實施。
2.4有利于實現(xiàn)項目信息管理系統(tǒng)的創(chuàng)建
在項目信息管理中,管理人員可以利用計算機網(wǎng)絡技術(shù)建立一個信息管理系統(tǒng),這個管理系統(tǒng)應該包括該項目實施中需要的各類信息,不僅有利于參與人員自主獲取信息,提高項目實施的效率,[2]而且信息管理系統(tǒng)中的各類信息能夠為項目決策提高可靠的依據(jù)。此外,管理人員還可以建立項目的決策系統(tǒng)和專家系統(tǒng),為項目參與人員提供更多便利,提高項目實施的質(zhì)量。
2.5有利于優(yōu)化配置項目資源
計算機技術(shù)可以有效控制項目信息資源,在項目信息管理的過程中,管理人員根據(jù)項目的實際情況和進度的需要,利用相關(guān)軟件計算出各類信息資源提供服務的時間,保證信息資源使用的規(guī)范性和有序性,進而實現(xiàn)各類信息資源的優(yōu)化配置。
2.6有利于控制項造價
項目信息管理與項目造價有很強的聯(lián)系性,在項目實施的過程中,往往需要大量的物資,而市場上的物資價格經(jīng)常會發(fā)生變化。為了有效控制項目的造價,項目信息管理人員可以利用計算機技術(shù)開發(fā)相關(guān)的物資計劃軟件,并利用該軟件計劃、審核、采購、保管、使用物資,規(guī)范物資的采購和使用流程,減少不必要的浪費,進而有效控制工程造價。
3計算機網(wǎng)絡技術(shù)于項目信息管理中的具體措施
3.1更新管理觀念
當今社會,項目規(guī)模不斷擴大,項目信息管理的復雜性日趨增加,為了增強企業(yè)在發(fā)展中的競爭力、推動企業(yè)的可持續(xù)發(fā)展,企業(yè)項目信息管理人員需要不斷提高自己的管理水平。在信息技術(shù)飛速發(fā)展的今天,項目信息管理人員應該與時俱進,不斷更新管理觀念,認真學習計算機網(wǎng)絡技術(shù),并充分利用計算機網(wǎng)絡技術(shù)進行項目信息管理。此外,企業(yè)的管理人員也應該更新管理觀念,積極借鑒其他企業(yè)的項目信息管理經(jīng)驗,為本企業(yè)的項目信息管理人員提供更多培訓和學習的機會,提高項目信息管理人員的業(yè)務能力,真正實現(xiàn)“人崗相配”,進而提高企業(yè)項目信息管理的質(zhì)量,保證項目的順利實施,提高企業(yè)的經(jīng)濟效益。
3.2引進先進的計算機網(wǎng)絡技術(shù)
在信息時代,計算機網(wǎng)絡技術(shù)在項目管理中的作用越來越重要,因此,企業(yè)應該重視計算機網(wǎng)絡技術(shù)在項目信息管理中的運用,提高信息管理工作的效率。比如,項目管理人員可以利用計算機網(wǎng)絡技術(shù)構(gòu)建一個信息交流的平臺,把各類與項目有關(guān)的信息集聚在一起,并利用網(wǎng)頁的形式把這些信息展示給項目參與人員,讓項目參與人員能夠隨時隨地查詢所需要的信息。其中,展示信息的網(wǎng)頁格式是超文本,網(wǎng)頁能夠在Internet網(wǎng)絡中傳播,當此網(wǎng)頁用鏈接的方式連接后,項目參與人員只用單擊鏈接點,就可以進入網(wǎng)站,自主查詢信息[3]。這樣,不僅加快了項目信息的交流速度,而且可以讓項目參與人員的的信息查詢更加便捷,減少了很多信息管理和信息獲取中的麻煩,從而提高項目實施的效率。
3.3不斷優(yōu)化項目管理中的計算機網(wǎng)絡技術(shù)
當前,信息技術(shù)飛速發(fā)展,計算機網(wǎng)絡技術(shù)日新月異,因此,企業(yè)要不斷優(yōu)化項目信息管理中的計算機網(wǎng)絡技術(shù)。比如,企業(yè)可以利用計算機網(wǎng)絡建設ASP交互式平臺,這是一種在Internet上的電子信息服務系統(tǒng),給用戶提供公共的電子白板,用戶可以在上面信息、發(fā)表自己的看法、參與討論,這樣,可是實現(xiàn)資源的共享,方面項目參與人員的交流。此外,企業(yè)還需要引進先進的計算機網(wǎng)絡技術(shù)人才和項目信息管理人才,建設一支高素質(zhì)、高技能的項目信息管理隊伍。
4結(jié)語
隨著社會經(jīng)濟的不斷發(fā)展進步,項目信息管理的工作量越來越大,管理流程越來越復雜,管理人員的工作難度不斷加大。因此,項目信息的管理人員應該認識到計算機網(wǎng)絡在項目信息管理中的重要作用,并合理利用計算機網(wǎng)絡技術(shù)對項目信息進行管理,不斷優(yōu)化項目信息管理模式,提高項目信息管理的效率和質(zhì)量,增強企業(yè)的競爭力。
參考文獻
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)15-0023-03
Abstract:The public opinion information data with massive, show data sources of unpredictability, article on the HTML page for noise reduction, sub tree construction, and then through the similarity calculation, combined with public opinion simple ontology library, the realization of the data block identification and record the data extract, finally to Hadoop platform for experimental environment and pumping out the algorithm experiment. Experimental results show that the algorithm in the public opinion data mining, automatic extraction of extraction rules has a certain reference value.
Key words:Data extraction; Hadoop; public opinions
1 概述
網(wǎng)絡輿情是某些社會事件發(fā)生后,在互聯(lián)網(wǎng)的平臺上,民眾針對其發(fā)展和變化過程的不同階段逐漸產(chǎn)生和發(fā)酵的社會態(tài)度,并借助于諸如論壇、博客、微博、微信、新聞跟帖等此類便捷的網(wǎng)絡媒體進行關(guān)注、表達或宣泄。由于網(wǎng)絡媒體的自由性和實時性,互聯(lián)網(wǎng)的便捷性和隨意性,網(wǎng)民針對社會過程中的各種問題,越來越多的傾向于借助網(wǎng)絡媒體跟帖、轉(zhuǎn)發(fā)、投票等方式暢所欲言,淋漓盡致地發(fā)表觀點,在極短時間造成內(nèi)凝聚共識,并誘發(fā)行動,直接影響社會。[1]同時由于閱歷和思想認識水平的局限性,網(wǎng)民們往往會在短時間內(nèi)難以認識事情背后復雜的社會,并認清其心理動因,從而造成非理性和過于主觀的聲音占據(jù)上風。從目前各領(lǐng)域內(nèi)的一系列突發(fā)事件來分析,人們通過網(wǎng)絡媒體進行傳播爆發(fā)出的輿論能量不容小覷。各級行政機關(guān)、企事業(yè)部門都越來越重視互聯(lián)網(wǎng)輿情的監(jiān)測,各專家學者也從不同方面對輿情進行分析研究,如從政策機制、評估體系策略[2]、用戶行為特征、網(wǎng)絡輿情傳播模式的研究和引導;技術(shù)上主要集中在網(wǎng)頁抓取、內(nèi)容分析、語義識別、數(shù)據(jù)挖掘、主題識別與跟蹤等算法的研究等。在這在互聯(lián)網(wǎng)技術(shù)飛速發(fā)展,影響力日益巨大的時下,網(wǎng)絡已化身為思想文化的集散地和社會輿論的增強器,我們應充分認識以其為載體的新媒體的社會影響力。因此,對于如何快速、準確的發(fā)現(xiàn)互聯(lián)網(wǎng)上潛在輿情信息并對其進行有效監(jiān)測、監(jiān)控及正確引導勢在必行,本文通過對已有技術(shù)和知識進行分析總結(jié)的基礎上,引入了云計算技術(shù),對以面對與高校相關(guān)的網(wǎng)絡輿情信息的數(shù)據(jù)抽取的關(guān)鍵技術(shù)進行了研究。
2 研究現(xiàn)狀
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,特別是互聯(lián)網(wǎng)的普及應用,我國的網(wǎng)民數(shù)量、網(wǎng)站數(shù)量以及網(wǎng)絡信息資源的容量以爆炸性的趨勢增長。據(jù)中國互聯(lián)網(wǎng)絡信息中心2016年1月的《第37次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》[3]顯示:網(wǎng)民通過各類移動設備進行網(wǎng)絡行為的用戶占全體網(wǎng)民總量的90.8%,規(guī)模達到了6.06億,其中手機占移動類網(wǎng)民的91%。同時,以互聯(lián)網(wǎng)為工具進行新聞獲取閱讀的用戶規(guī)模為5.55億,手機網(wǎng)絡新聞用戶規(guī)模為4.60億,相較于去年年底將近增長11%。如作為網(wǎng)絡環(huán)境下對新聞快速傳播形成熱點話題的微博、微信、來往等App應用借助于手機等無線設備,極大促進了網(wǎng)民對網(wǎng)絡輿情的接觸度和傳播速度,從而使Web成為一個以大數(shù)據(jù)為基本特征的全球化信息中心。這些在許多領(lǐng)域具有重要價值的海量數(shù)據(jù)具有多樣性、異構(gòu)性且動態(tài)變化等特征,單純地依賴人工的方法難以及時、迅速地完成海量web信息的收集、 web輿情的發(fā)現(xiàn)及進一步的跟蹤。
針對網(wǎng)絡輿情監(jiān)測迫切需要分析挖掘的這些海量數(shù)據(jù),按其信息蘊藏的深度,可分為SurFace Web和Deep Web兩大類[4][5]。Surface Web是將各個獨立的HTML靜態(tài)網(wǎng)頁通過超鏈接進行連接,其內(nèi)容能夠為當前的通用搜索引擎直接索引和檢索而無需與網(wǎng)絡數(shù)據(jù)庫進行交互;而Deep Web面向的是網(wǎng)絡服務器中的網(wǎng)絡數(shù)據(jù)庫,Deep Web的內(nèi)容頁面在被查詢時才由Web服務器主動與數(shù)據(jù)庫服務器進行交互而動態(tài)按照某一特定的HTML布局生成后返回給提交查詢請求的訪問者。隨著信息化的不斷跨躍推進和互聯(lián)網(wǎng)技術(shù)的持續(xù)快速發(fā)展,以網(wǎng)絡數(shù)據(jù)庫形式存儲的資源成指數(shù)級增長,如今人們也已訪問網(wǎng)絡數(shù)據(jù)庫成為信息獲取的主要方式和方法。[6] Deep Web形式的數(shù)據(jù)內(nèi)容分布于商業(yè)、經(jīng)濟、計算機、教育、新聞媒體、娛樂等不同的領(lǐng)域;網(wǎng)絡媒體以BBS論壇、微博、微信、來往、博客、播客、新聞、跟帖等各種形式載體和展現(xiàn),此類海量存儲在Deep Web背后的網(wǎng)絡數(shù)據(jù)庫數(shù)據(jù)已成為了供政府及企事業(yè)單位進行輔助決策的來源。但由于網(wǎng)絡數(shù)據(jù)庫隱藏在Web服務后端的隱蔽性,及各個Deep Web站點在網(wǎng)頁展現(xiàn)形式和表述質(zhì)量的差異性,使得當前存儲DeepWeb數(shù)據(jù)的網(wǎng)絡數(shù)據(jù)庫搜索引擎只能實現(xiàn)大約33%左右覆蓋搜索,因此如何有效的、快速的且準確地在浩瀚的網(wǎng)絡數(shù)據(jù)庫中抽取信息資源成為當前輿情研究中首當解決的問題。
3 基于大數(shù)據(jù)的數(shù)據(jù)抽取的相關(guān)技術(shù)
3.1 數(shù)據(jù)抽取
數(shù)據(jù)抽取,也稱之為網(wǎng)頁信息提取,主要是從HTML源碼中去除一些如廣告、標語等噪聲信息,提取出標題、作者、正文等有用的信息。及時準確的信息提取為輿情系統(tǒng)提供可靠的數(shù)據(jù)源,數(shù)據(jù)抽取在web 輿情發(fā)現(xiàn)中至關(guān)重要,,它為輿情系統(tǒng)準確地發(fā)現(xiàn)相關(guān)信息提供基礎。信息的抽取過程按自動化程度一般可分為人工、半自動化及全自動化三種方式。網(wǎng)頁信息抽取是一種針對網(wǎng)絡數(shù)據(jù)庫中的數(shù)據(jù)通過分析、加工網(wǎng)頁的結(jié)構(gòu)實現(xiàn)信息數(shù)據(jù)的提取的過程。由于網(wǎng)頁的復雜性、多樣性以及程序員構(gòu)建過程的隨意性和習慣性,使得信息展現(xiàn)的模版不確定性和多樣性,針對不同的網(wǎng)頁模版抽取規(guī)則也不盡相同,信息抽取的方法也越來越多,按其實現(xiàn)原理大致可分為基于HTML結(jié)構(gòu)、基于自然語言處理和基于本體幾類方式[7]。
3.2 Hadoop
Hadoop是由Apache基金會開發(fā)的一個開源的分布式系統(tǒng)基礎架構(gòu),其核心為實現(xiàn)為海量數(shù)據(jù)提供了存儲的分布式文件系統(tǒng) (Hadoop Distributed File System,HDFS)和為海量數(shù)據(jù)提供了計算能力的分布式計算MapReduce。Hadoop為程序開發(fā)者提供了簡單易用的接口,用戶只需編寫 Map函數(shù)和Reduce函數(shù)即可實現(xiàn)分布式計算,而無需考慮諸如由Hadoop負責處理的任務調(diào)度,負載平衡和通信等問題[8]。
HDFS是能部署在廉價的機器上的分布式文件系統(tǒng),用戶不需知道文件的實際存儲位置就能夠訪問分布在不同機器上的文件,具有高容錯性、高吞吐量、能自動處理失效節(jié)點的特點。HDFS包含三種類型的角色:用以實現(xiàn)系統(tǒng)命名空間的管理和客戶端文件訪問管理的Name Node,用以實現(xiàn)管理節(jié)點文件存儲的Data Node 和用于需要操作分布式文件系統(tǒng)文件應用程序的Client。MapReduce是包含一個主服務器Job Tracker和多個從服務器Task Tracker的主從式架構(gòu),Job Tracker是一個master服務,負責調(diào)度、監(jiān)控和管理Task Tracker,并給空閑的Task Tracker分配Map任務和Reduce任務。
4 抽取框架
實現(xiàn)上主要對查詢結(jié)果列表頁和內(nèi)容頁進行信息提取,提取過程中使用自建的簡單本地體庫抽取方法來實現(xiàn)抽取,主要過程為:數(shù)據(jù)清洗、數(shù)據(jù)塊識別,結(jié)果集抽取,抽取規(guī)則構(gòu)建。
4.1 數(shù)據(jù)清洗
一般情況下,一個查詢結(jié)果頁面可能包含多個數(shù)據(jù)塊,如宣傳數(shù)據(jù)塊、數(shù)據(jù)信息數(shù)據(jù)塊、位置數(shù)據(jù)塊、導航數(shù)據(jù)塊等。其文檔中含有一些對抽取沒有價值的信息,如樣式表標簽、圖片標簽、命名空間標簽、內(nèi)容標簽、表單標簽、媒體標簽、表格標簽等,直接對此類有大量無用節(jié)點的HTML代碼進行解析而生成的網(wǎng)頁標簽樹會十分臃腫,因此首先將列表結(jié)果頁和內(nèi)容結(jié)果頁文件進行“瘦身”解析成標簽樹,并采用廣度優(yōu)先遍歷方法對標簽樹中所有節(jié)點進行降噪處理,其過程如下:從根節(jié)點開始出發(fā),直至發(fā)現(xiàn)表示正文開始的body標簽節(jié)點,將當前節(jié)點及其子樹提取后向下遍歷,判斷讀入節(jié)點是否是噪音節(jié)點,如果是則將該節(jié)點及其子樹刪除,循環(huán)直至到達樹末尾。經(jīng)過上述過程的降噪處理,可以將網(wǎng)頁標簽樹中明顯的以上所提及的無用信息標簽及其間的內(nèi)容刪除,從而降低了計算量,并極大簡化了后續(xù)算法的輸入。
4.2數(shù)據(jù)塊識別和數(shù)據(jù)記錄集抽取
一般情況下,每個查詢結(jié)果頁面一般只有一塊區(qū)域是用戶所關(guān)心并希望可以獲取的,這部分即為該頁面的數(shù)據(jù)信息部分,而其他的模塊則認為是對用戶數(shù)據(jù)塊信息順利的獲取的干擾因素,因此如何準確的識別出數(shù)據(jù)塊在HTML頁面的位置的至關(guān)重要。在完成對標簽樹清洗處理之后,我們需要發(fā)現(xiàn)并定位標簽樹中的數(shù)據(jù)塊,此數(shù)據(jù)塊包含查詢結(jié)果。分析比較多個經(jīng)過清洗生成的查詢結(jié)果的標簽樹后發(fā)現(xiàn):對于標簽樹中,某一父親節(jié)點T具有越多的結(jié)構(gòu)相似的子樹越多,當比重超過一定的閥值,則該節(jié)點將越會是我們所關(guān)注的數(shù)據(jù)塊,針對這一思想實現(xiàn)如何快遞自動識別出的興趣數(shù)據(jù)塊,算法描述如下:
輸入:節(jié)點T下的兩顆子樹T1、T2
輸出:子樹T1、T2的相似度Sim(T1,T2)
算法:
1)初始化SumT1、SumT2、DisumT12;
2) 循環(huán)T節(jié)點直至遍歷所有的子節(jié)點{
3) 如果兩個節(jié)點的標簽相同{
4) Sum T1++; Sum T2++;
5) }
6) 如果兩個節(jié)點的有節(jié)點但標簽相同{
7) Sum T1++; Sum T2++; Disum T12++;
8) }
9) 如果T1節(jié)點樹有節(jié)點而 T2節(jié)點樹無節(jié)點{
10) Sum T1++; Sum T2++;Disum T12++;
11) }
12) 否則{
13) Sum T2++; Disum T12++;
14) }
15) Sim(T1,T2)=(SumT1+ SumT2- DisumT12)/( SumT1+ SumT2)