- 相關(guān)推薦
基于伯努利大數(shù)定律的云存儲(chǔ)數(shù)據(jù)方法研究
摘 要:隨著科技水平的提高,對云存儲(chǔ)服務(wù)的可靠性、安全性和穩(wěn)定性都有了更高的要求。面對云存儲(chǔ)服務(wù),如何優(yōu)化資源配置,進(jìn)而提高用戶的體驗(yàn)質(zhì)量,本文提出了基于大數(shù)定律的云存儲(chǔ)方法,具體方法是用伯努利大數(shù)定律按照存儲(chǔ)頻率,根據(jù)歷史信息確定用戶對資源的需求,然后進(jìn)行再分配,從而減少了數(shù)據(jù)訪問延遲。
關(guān)鍵詞:大數(shù)定律;云存儲(chǔ);數(shù)據(jù)分配
中圖分類號(hào):TP399 文獻(xiàn)標(biāo)識(shí)碼:A
Abstract:with the improvement of science and technology,there are higher requirements for the reliability,security and stability of cloud storage service.In terms of cloud storage service,how to optimize the allocation of resources and to improve the quality of user experience. This paper proposes a method of cloud storage based on the Law of Large Numbers,in which the concrete way is to determine and redistribute users' demand for resources based on the frequency of storage and historical information by means of Bernoulli LLN,thereby reducing the data access delay.
Keywords:Law of Large Numbers (LLN);cloud storage;data distribution
1 引言(Introduction)
云計(jì)算的發(fā)展在現(xiàn)如今的信息技術(shù)中應(yīng)用越來越廣泛,云存儲(chǔ)服務(wù)[1]也憑借著它的高擴(kuò)展性、高可靠性、成本低、方便數(shù)據(jù)管理的諸多優(yōu)勢受到人們的青睞,與云服務(wù)相關(guān)的產(chǎn)品也越來越受到用戶的喜愛。云存儲(chǔ)系統(tǒng)[2-4]是一個(gè)以數(shù)據(jù)存儲(chǔ)和管理為核心提供云計(jì)算能力的高性能計(jì)算系統(tǒng)。它可是實(shí)現(xiàn)對于海量數(shù)據(jù)的采集、管理和保護(hù)等功能。用戶可以通過云存儲(chǔ)實(shí)現(xiàn)不同區(qū)域,不同時(shí)間的資源共享和互動(dòng),并且通過應(yīng)用權(quán)限的控制、傳輸加密、信息加密和數(shù)據(jù)隔離技術(shù)這些技術(shù)保證數(shù)據(jù)的安全性。
在享受大量數(shù)據(jù)在云存儲(chǔ)服務(wù)中的便利的同時(shí),其對于數(shù)據(jù)的訪問速度也有了更高的要求。由于在云端人們不斷的把數(shù)據(jù)上傳保存上去,在海量的存儲(chǔ)空間中對數(shù)據(jù)信息進(jìn)行存儲(chǔ)。隨著存儲(chǔ)的數(shù)據(jù)量越來越大,對于數(shù)據(jù)的訪問時(shí)間也就越來越長。云存儲(chǔ)系統(tǒng)的DBAS結(jié)構(gòu)為B/S三層體系結(jié)構(gòu),分別是用戶層、應(yīng)用層、數(shù)據(jù)存儲(chǔ)層。在數(shù)據(jù)存儲(chǔ)層存儲(chǔ)大量的數(shù)據(jù)信息和數(shù)據(jù)邏輯,所有與數(shù)據(jù)有關(guān)的安全、完整性控制、數(shù)據(jù)的一致性、并發(fā)操作都是在這層完成的。B/S結(jié)構(gòu)的特點(diǎn)是分布性強(qiáng),維護(hù)方便、開發(fā)簡單并且共享性強(qiáng)、總體擁有成本低等特點(diǎn)。但是數(shù)據(jù)安全性問題,以及數(shù)據(jù)傳輸速度慢等的缺點(diǎn)也顯而易見。由于系統(tǒng)期望用戶可以從云存儲(chǔ)中及時(shí)的獲得想要的數(shù)據(jù),因此減少用戶在對數(shù)據(jù)進(jìn)行訪問的時(shí)候造成訪問延遲成為數(shù)據(jù)資源分配有待解決的問題。
目前針對云存儲(chǔ)中的數(shù)據(jù)資源分配問題,研究者們提出了各種不同的云數(shù)據(jù)存儲(chǔ)方案。祁志陽[5]從經(jīng)濟(jì)學(xué)原理的角度分析了云計(jì)算的經(jīng)濟(jì)學(xué)模型,以用戶對資源評(píng)價(jià)的相似度為約束條件進(jìn)行資源調(diào)度管理,結(jié)合經(jīng)濟(jì)學(xué)的超邊際分配方法對資源進(jìn)行分配的。由于在建模過程中數(shù)據(jù)是靜態(tài)的,而在物理環(huán)境下數(shù)據(jù)是動(dòng)態(tài)形式,會(huì)造成數(shù)據(jù)不準(zhǔn)備等缺點(diǎn)。Siva ThejaMaguluri[6]根據(jù)一個(gè)隨機(jī)的過程,如果作業(yè)到達(dá)時(shí)請求訪問資源,采用加入最短的隊(duì)列算法和MaxWeight調(diào)度選擇算法,建立了一個(gè)負(fù)載均衡,以便在資源利用的過程中提高吞吐量。Fabien Hermenier[7]提出了一種通過減少虛擬機(jī)遷移和分配到主機(jī)的云計(jì)算時(shí)間的方法,以提升資源利用率;诖,本文的主要工作要工作有:
(1)通過歷史訪問痕跡對用戶進(jìn)行分類。由于不同類型用戶對于寬帶、延遲等的要求不同,所以需要提供的服務(wù)也不一樣。不同類型用戶有不同的需求,可以根據(jù)歷史信息計(jì)算各類型用戶需求量。
(2)應(yīng)用伯努利大數(shù)定律確定各類用戶對數(shù)據(jù)的需求,根據(jù)需求分配存儲(chǔ)資源。
2 數(shù)據(jù)存儲(chǔ)(Data storage)
2.1 云存儲(chǔ)數(shù)據(jù)的資源配置
在云存儲(chǔ)數(shù)據(jù)資源配置的過程中,涉及數(shù)據(jù)的采集、數(shù)據(jù)維護(hù)、數(shù)據(jù)的存儲(chǔ)方式等多個(gè)要素,它們彼此之間的相互協(xié)作構(gòu)成了云存儲(chǔ)數(shù)據(jù)的資源配置過程。然而,不同用戶對云存儲(chǔ)的資源進(jìn)行上傳和下載的過程中,對資源的需求也不同,對需要云服務(wù)數(shù)據(jù)的配置也會(huì)有不同的要求,這樣就加大了資源配置的復(fù)雜性。從用戶的角度來說,對需求的服務(wù)造成延時(shí),會(huì)降低用戶的使用效率,同時(shí),對云存儲(chǔ)服務(wù)器也會(huì)造成負(fù)載不均衡的狀態(tài)。
因此,本文通過訪問痕跡對于每一類的數(shù)據(jù)需求進(jìn)行分類,在流量約定設(shè)置的優(yōu)先級(jí)里,一些特定的網(wǎng)絡(luò)數(shù)據(jù)流也需要定義服務(wù)質(zhì)量。比如多媒體數(shù)據(jù)流要求有保障的通過量;IP電話則需要嚴(yán)格的抖動(dòng)和延遲限制;在遠(yuǎn)程外科的手術(shù)中則要求有可靠保證的可用性。除了這些特定的數(shù)據(jù)服務(wù)外,對于一般的普通用戶而言也需要要有針對性的數(shù)據(jù)服務(wù)?梢酝ㄟ^訪問痕跡對每一組數(shù)據(jù)的內(nèi)容進(jìn)行分析,對數(shù)據(jù)內(nèi)容可以按興趣愛好、年齡、性別、工作性質(zhì)等大致分成幾類。對于這些訪問的數(shù)據(jù)用伯努利大數(shù)定律計(jì)算出每一類的需求量,從而確定服務(wù)器存儲(chǔ)數(shù)據(jù)內(nèi)容的優(yōu)先級(jí)。
根據(jù)用QoS服務(wù)分析每個(gè)傳送的報(bào)文內(nèi)容,將這些報(bào)文歸類到以CoS(分類的標(biāo)準(zhǔn))值來表示的各個(gè)數(shù)據(jù)流中,對它進(jìn)行標(biāo)注。
由于云計(jì)算環(huán)境具有虛擬化的特點(diǎn),把硬件物理資源虛擬化為虛擬服務(wù)資源,這樣可以對虛擬服務(wù)資源利用軟件程序進(jìn)行重新配置,并通過配置子程序?qū)崿F(xiàn)不同用戶的需求。
2.2 根據(jù)伯努利大數(shù)定律計(jì)算量建立存儲(chǔ)結(jié)構(gòu)
在伯努利大數(shù)定律計(jì)算的數(shù)據(jù)量建立的存儲(chǔ)結(jié)構(gòu)中,按照計(jì)算的數(shù)值,云計(jì)算服務(wù)系統(tǒng)被劃分為無數(shù)個(gè)資源池。這些資源池不只是存儲(chǔ)資源,還要對已有的資源池進(jìn)行管理。每一個(gè)資源池里,信息管理系統(tǒng)對資源中分類的數(shù)據(jù)信息進(jìn)行統(tǒng)一管理。
如圖1所示:客戶端和服務(wù)端兩部分構(gòu)成了伯努利大數(shù)定律計(jì)算數(shù)值建立的存儲(chǔ)結(jié)構(gòu)。
下面給出伯努利大數(shù)定律的計(jì)算公式:
設(shè)定μ是n次獨(dú)立試驗(yàn)中事件A發(fā)生的次數(shù),且事件A在每次試驗(yàn)中發(fā)生的概率為P,則對任意正數(shù)ε>0,則成立。
其中公式中的n是訪問的數(shù)據(jù)量,μ指的是在n次訪問的數(shù)據(jù)量中某一類型在固定的時(shí)間內(nèi)訪問數(shù)據(jù)的次數(shù),且A是每次實(shí)驗(yàn)中發(fā)生的概率為P。
相應(yīng)的根據(jù)伯努利大數(shù)定律確定的數(shù)據(jù)量的值確定的存儲(chǔ)結(jié)構(gòu)的步驟:
Step1:對參數(shù)進(jìn)行初始化,設(shè)定任務(wù)的數(shù)量和屬性;
Step2:根據(jù)瀏覽器的訪問記錄計(jì)算當(dāng)前的訪問數(shù)據(jù)值;
Step3:根據(jù)興趣愛好,性別、年齡將數(shù)據(jù)資源劃分為幾類;
Step4:通過伯努利大數(shù)定律計(jì)算每一種類型的所占比;
Step5:依據(jù)每一種類型的所占總訪問量資源的比重重新對云存儲(chǔ)數(shù)據(jù)的方式進(jìn)行設(shè)置。
3 實(shí)驗(yàn)與分析(Experiment and analysis)
3.1 實(shí)驗(yàn)環(huán)境
針對本文所提出的根據(jù)伯努利大數(shù)定律的云存儲(chǔ)數(shù)據(jù)方法,本文在QoS服務(wù)的基礎(chǔ)上,通過瀏覽器的訪問數(shù)據(jù)痕跡進(jìn)行了仿真實(shí)驗(yàn),并計(jì)算了幾種不同類型的用戶對數(shù)據(jù)訪問量的數(shù)值。在實(shí)驗(yàn)過程中,主機(jī)的內(nèi)存為8GB,硬盤為520GB,操作系統(tǒng)為windows 10。本文提出的基于伯努利大數(shù)定律的云存儲(chǔ)模型與文獻(xiàn)中[5]的信譽(yù)度約束下的超邊際約束的云存儲(chǔ)資源分配模型與文獻(xiàn)[6]最短隊(duì)列算法進(jìn)行對比,通過在執(zhí)行任務(wù)的平均時(shí)間t和負(fù)載均衡度σ作為指標(biāo)來衡量QoS服務(wù)質(zhì)量的性能。因此有如下定義:
定義1:t表示執(zhí)行任務(wù)的平均時(shí)間,在資源上執(zhí)行任務(wù)n所用的整體的時(shí)間T,max{tci}表示在任務(wù)集T中完成最后一個(gè)任務(wù)的時(shí)間,min{tcj}表示在任務(wù)集T的第一個(gè)任務(wù)開始的時(shí)間,則有如下公式:
定義2:σ表示負(fù)載均衡度的大小,即云服務(wù)資源處理任務(wù)所需時(shí)間的方差L與帶處理任務(wù)數(shù)n的比值。其中vli表示虛擬機(jī)負(fù)載量,m表示虛擬資源的數(shù)量,avlc表示虛擬服務(wù)資源的平均負(fù)載值,則:
σ的值越小,說明負(fù)載均衡的性能越好。反之,性能越差。
3.2 性能分析
本文選定了50的虛擬服務(wù)系統(tǒng),通過比較伯努利大數(shù)定律的云存儲(chǔ)數(shù)據(jù)的方法與信譽(yù)度約束超邊際分析云存儲(chǔ)數(shù)據(jù)方法和采用對短隊(duì)列算法進(jìn)行比較。選取50的虛擬服務(wù)器,將任務(wù)數(shù)量從50到1000個(gè)獨(dú)立任務(wù)構(gòu)成的任務(wù)集,對執(zhí)行任務(wù)的平均時(shí)間t和負(fù)載均衡度σ的進(jìn)行分析得出以下量表數(shù)據(jù)信息,如圖2和圖3所示。
圖2可以看出:用伯努利大數(shù)定律算法比信譽(yù)度約束算法和最短隊(duì)列算法執(zhí)行任務(wù)的平均時(shí)間越來越少,曲線也更平穩(wěn)。
在圖3中,最短隊(duì)列算法的負(fù)載均衡度較大,變化幅度也大,不穩(wěn)定;在信譽(yù)度算法和大數(shù)定律的算法中兩者的負(fù)載均衡度差距不是很大,但是大數(shù)定律的曲線更平穩(wěn)。因此,用伯努利大數(shù)定律算法能更好的提高資源利用率,是云服務(wù)系統(tǒng)的負(fù)載均衡達(dá)到更好的效果。
仿真結(jié)果表明,對于云服務(wù)數(shù)據(jù)存儲(chǔ)的資源配置問題,依據(jù)伯努利大數(shù)定律的數(shù)值結(jié)果進(jìn)行分配,使云計(jì)算資源節(jié)點(diǎn)的使用率達(dá)到最佳,減少了延遲,并提升了任務(wù)完成時(shí)間。
4 結(jié)論(Conclusion)
本文分析云服務(wù)數(shù)據(jù)存儲(chǔ)方式在資源配置過程存在負(fù)載不均衡問題進(jìn)行了研究,提出了一種基于大數(shù)定律的云存儲(chǔ)數(shù)據(jù)方法,給出了思路和過程。通過對歷史訪問數(shù)據(jù)的分類和用伯努利大數(shù)定律的計(jì)算,計(jì)算了不同類型的數(shù)據(jù)訪問量的數(shù)值,并加以分析。實(shí)驗(yàn)表明本方法對數(shù)據(jù)訪問量的計(jì)算,可以以此為依據(jù)對數(shù)據(jù)資源進(jìn)行合理分配。提高了資源利用率,減少訪問延遲。
參考文獻(xiàn)(References)
[1] 冬瓜頭(張東)大話存儲(chǔ)II[M].北京:清華大學(xué)出版社,2011:22-24.
[2] MATHER T,KUMARASWAMY S,LATIF S.Cloud security and privacy:an enterprise perspective on risks and compliance[M].Cloud Security and Privacy:An Enterprise Perspective on Risks.Sebastopol,CA:OReilly Media,2009:35-72.
[3] 傅穎勛,羅圣美,舒繼武.安全云存儲(chǔ)系統(tǒng)與關(guān)鍵技術(shù)綜述[J].計(jì)算機(jī)研究與發(fā)展,2013,50(1):136-145.
[4] 李暉,孫文海,李鳳華,等.公共云存儲(chǔ)服務(wù)數(shù)據(jù)安全及隱私保護(hù)技術(shù)綜述[J].計(jì)算機(jī)研究與發(fā)展,2014,51(7):1397-1409.
[5] 祁志陽,馬滿福.信譽(yù)度約束下超邊際分析的云存儲(chǔ)[D].西北師范大學(xué),2015.
[6] HuberN,BrosigF,Kounev S.Model-based self-adaptive resource allocation in virtualized environment[J].in:SEAMS,ACM,2011:90-99.
[7] DuPontC,GiulianiG,HermenierF,et al.Anenergyaware framework for virtual machinePlacement in cloud federated data centers[C].Future Energy System:WhereEnergy,Computing and Communication Meet (e-Energy),2012 Third International Conference on.IEEE,2012:1-10.
作者簡介:
陳維華(1978-),女,碩士,副教授.研究領(lǐng)域:物聯(lián)網(wǎng)技術(shù)及應(yīng)用.
何彩虹(1980-),女,碩士,工程師.研究領(lǐng)域:物聯(lián)網(wǎng)技術(shù)及應(yīng)用.
【基于伯努利大數(shù)定律的云存儲(chǔ)數(shù)據(jù)方法研究】相關(guān)文章:
大數(shù)據(jù)下茶企物流管理體系優(yōu)化研究08-18
讀《大數(shù)據(jù)時(shí)代》有感:大數(shù)據(jù)與小生活08-18
基于校園一卡通數(shù)據(jù)系統(tǒng)的學(xué)生行為分析研究08-19
云環(huán)境下基于蟻群算法的動(dòng)態(tài)容錯(cuò)技術(shù)研究08-19
基于Verilog HDL設(shè)計(jì)的自動(dòng)數(shù)據(jù)采集系統(tǒng)04-12
基于Small RTOS51的數(shù)據(jù)采集器設(shè)計(jì)04-12
從數(shù)據(jù)挖掘走向大數(shù)據(jù)演講稿08-18
基于高技能型人才培養(yǎng)的高職教育考試類型與方法研究08-22