數(shù)字圖書館中大數(shù)據(jù)存儲的應(yīng)用研究論文
【摘要】大數(shù)據(jù)時代,數(shù)據(jù)的存儲與快速存取成為圖書館管理工作中的重要問題,F(xiàn)代圖書館數(shù)字化的管理模式帶來更大的資料數(shù)據(jù)容量,同時也為數(shù)字圖書館的存儲功能提出了更高的要求。傳統(tǒng)的數(shù)據(jù)存儲和數(shù)據(jù)管理方式早已無法達到大數(shù)據(jù)存儲的要求標(biāo)準(zhǔn)。數(shù)字圖書館中大數(shù)據(jù)存儲問題還需要進一步的深入研究,并尋求順應(yīng)科技發(fā)展的全新的模式來應(yīng)對大數(shù)據(jù)的存儲難題。
【關(guān)鍵詞】數(shù)字圖書館;大數(shù)據(jù);存儲;應(yīng)用
圖書館、閱覽室的數(shù)據(jù)存儲系統(tǒng)與其他行業(yè)的存儲系統(tǒng)有較大不同,主要表現(xiàn)在:①數(shù)據(jù)量龐大。一座大型圖書館每年的數(shù)據(jù)增量可達10TB以上;②存儲周期長。圖書館數(shù)據(jù)需要較長的存儲時間,甚至可達50年以上;③數(shù)據(jù)類型多樣。現(xiàn)代圖書具有影像、圖像、文字、聲音等數(shù)據(jù),均需要存儲;④高度的可靠性和安全性要求。作為一所信息化程度較高的圖書館,為了構(gòu)建一個滿足業(yè)務(wù)需要的高效數(shù)據(jù)存儲系統(tǒng),可以利用數(shù)據(jù)壓縮、重復(fù)數(shù)據(jù)刪除、自動精簡配置、自動分層存儲等現(xiàn)代數(shù)據(jù)存儲技術(shù),對大數(shù)據(jù)進行高效的存儲和管理。
一、數(shù)字圖書館大數(shù)據(jù)存儲容量不足的問題
現(xiàn)代圖書館是一個十分復(fù)雜的機構(gòu),完備的圖書館除了具有對借閱人員信息、圖書還借與出人信息、圖書設(shè)備信息等硬數(shù)據(jù)進行管理外,數(shù)據(jù)量最大最復(fù)雜的當(dāng)屬對圖書資料本身的軟數(shù)據(jù)管理以及現(xiàn)代電子圖書資料的儲存與管理,特別是大型圖書館或高校圖書館,門類齊全、借閱量大、內(nèi)容及設(shè)備多樣,更使得它所產(chǎn)生的數(shù)據(jù)結(jié)構(gòu)復(fù)雜且數(shù)據(jù)增量大。
圖書館的數(shù)據(jù)量隨時間線性增長,隨著各種類型的數(shù)字化圖書及設(shè)備越來越多,信息化程度的不斷加強,對圖書及讀者管理規(guī)范程度的不斷提高,以及讀者對資源要求的不斷加深,致使數(shù)據(jù)容量加速增長。
當(dāng)前大型圖書館每年的數(shù)據(jù)增量大約為20~30TB,如此浩大的數(shù)據(jù)量,對于一個擁有100TB存儲容量的圖書館一也只能滿足3一5年的數(shù)據(jù)存儲需要,因此需要采取有效的'應(yīng)對措施予以解決。
日前,許多高校圖書館的存儲設(shè)備容量利用率不到50%,大有潛力可挖。在圖書館實際管理工作中,在缺乏技術(shù)的情況下,經(jīng)常采取整理碎片的技術(shù)來提高存儲空間利用率和數(shù)據(jù)查詢效率,這對于一般性的小容量操作是可行的,但對于大型數(shù)據(jù)系統(tǒng)其耗費的時間是難以估計的。況且,碎片的整理并不能有效消除分配卷中未使用的空間,達不到精簡配置的目的。
二、數(shù)字圖書館大數(shù)據(jù)存儲容量不足的應(yīng)對
措施日前許多圖書館采取的辦法是由被購買了電子圖書的商家作數(shù)據(jù)備份,這顯然不是最有效的數(shù)據(jù)存儲機制。為了大幅度提高數(shù)據(jù)存儲效率,最有效的辦法是采用數(shù)據(jù)壓縮技術(shù)和重復(fù)數(shù)據(jù)刪除技術(shù)。
1、利用壓縮技術(shù)提高空間利用率
對于書籍等圖書資料文件,其文件內(nèi)和文件間存在大量的相似性關(guān)系,Delta壓縮技術(shù)則可以對文件內(nèi)和文件間的數(shù)據(jù)進行比較,刪除文件內(nèi)和文件間的冗余數(shù)據(jù),達到數(shù)據(jù)壓縮的日的,相似程度越高,壓縮比越小。
2、利用消重技術(shù)提高空間利用率
圖書館數(shù)據(jù)在存儲過程中往往有大量的備份數(shù)據(jù),數(shù)據(jù)經(jīng)過多次備份后,產(chǎn)生較多的數(shù)據(jù)重復(fù),重復(fù)數(shù)據(jù)刪除技術(shù)在備份過程中能夠較好地消除重復(fù)數(shù)據(jù),進而節(jié)約空間。對于重復(fù)數(shù)據(jù)備份,可以分為時間數(shù)據(jù)消重和空間數(shù)據(jù)消重。對于電子書籍等產(chǎn)生的數(shù)據(jù)一般屬于自然數(shù)據(jù),其主要特點是,數(shù)據(jù)的變化率較低、完備的數(shù)據(jù)備份、數(shù)據(jù)長期保存、數(shù)據(jù)內(nèi)容可以感知等,因此,適合采用時間數(shù)據(jù)消重。因此,就本校圖書館的數(shù)據(jù)整理,大約每三個月進行一次。
圖書館數(shù)據(jù)量龐大,僅僅一所5000人規(guī)模學(xué)校的中型圖書館,其電子圖書數(shù)據(jù)量就可達到15TB以上。因此,不能簡單采用與中小備份類似的解決方案,由于存在大量的圖形文件及影像文件等,其海量數(shù)據(jù)備份是一個非常耗時的過程,在熱備份情況下,可能需要花費近一個月時間。最佳實踐做法是,采用備份設(shè)施來拷貝數(shù)據(jù)并同時保證應(yīng)用程序仍然可以讓客戶端使用。重要數(shù)據(jù)的備份可以使用有冗余級別配置的主機或硬盤RAID。兩個獨立硬件控制的RAID陣列的軟件鏡像可以用來備份其關(guān)鍵數(shù)據(jù)。這種技術(shù)可以保證當(dāng)某個磁盤或陣列發(fā)生故障時整個系統(tǒng)仍然可以使用,任何網(wǎng)絡(luò)組件的故障,如網(wǎng)卡、視頻設(shè)備、IDE控制器、電源等可以容易地替換而不影響運行。最經(jīng)濟且非常有效的數(shù)據(jù)備份方案可以采取冗余技術(shù)RAID4,即若干個數(shù)據(jù)盤帶一個冗余盤,在這些盤中的相應(yīng)塊內(nèi),存儲的相應(yīng)位的1的個數(shù)必須是偶數(shù)個。當(dāng)某一個數(shù)據(jù)盤發(fā)生故障而更換了新盤后,只要按照偶數(shù)個1的原則就可以將損壞了的數(shù)據(jù)恢復(fù)到新盤中。
在實際操作中,可以有多種備份方案,通常采用停機備份:正常關(guān)閉待操作數(shù)據(jù),進行數(shù)據(jù)的冷備份。備份所有數(shù)據(jù)文件、控制文件、日志文件和參數(shù)文件,把冷備份拷貝到新存儲設(shè)備上,然后新建一個同名實例,最后再把備份數(shù)據(jù)文件重新打開即可。
3、提高存儲空間的利用率
對于某項應(yīng)用,傳統(tǒng)空間分配方案采用完全供給,以確保該應(yīng)用擁有足夠的增長空間,這勢必造成大量的存儲空間閑置,在空間浪費的同時也造成了能源損失。采用自動精簡配置是一種較新的存儲空間管理技術(shù)。利用自動精簡配置技術(shù),能夠幫助用戶在不降低性能的情況下,大幅度提高存儲空間利用效率,能使用戶實現(xiàn)接近100%的存儲空間利用率,因為數(shù)據(jù)需要多少空間系統(tǒng)則按需要進行分配,基本不產(chǎn)生多余的空間。自動精簡配置技術(shù)的一個明顯的優(yōu)勢在于可自動擴展分配卷,無須手動擴展,而且當(dāng)需求變化時,無需更改存儲容量設(shè)置;通過虛擬化技術(shù)集成存儲,減少超量配置,降低總功耗。這也是解決機房耗能問題的很有效的方法。
三、總結(jié)
總的來說,對于數(shù)字圖書館大數(shù)據(jù)的存儲和管理都十分關(guān)鍵,有效地存儲和管理大數(shù)據(jù)是現(xiàn)代圖書館信息化管理的必要基礎(chǔ),良好的數(shù)據(jù)管理技術(shù)能夠為圖書館管理工作的順利開展提供保障。所以,加強大數(shù)據(jù)存儲工作的管理,是未來數(shù)字圖書館發(fā)展的重要保證。
參考文獻
[1]彭磊.建立SAN(存儲局域網(wǎng))——高校圖書館數(shù)據(jù)存
【數(shù)字圖書館中大數(shù)據(jù)存儲的應(yīng)用研究論文】相關(guān)文章:
數(shù)字圖書館中XML數(shù)據(jù)安全的研究論文10-30
淺析基于云存儲的數(shù)字校園存儲架構(gòu)論文05-28
基于數(shù)據(jù)挖掘的數(shù)字圖書館檢索技術(shù)研究論文11-06
Web集成信息檢索在數(shù)字圖書館中的應(yīng)用研究論文10-30
集群存儲系統(tǒng)數(shù)據(jù)安全研究論文10-30
論文:大數(shù)據(jù)在高校中的應(yīng)用研究07-02