當(dāng)前位置:首頁 >  IDC >  云計算 >  正文

天翼云OOS率先突破SMR技術(shù)瓶頸,14TB領(lǐng)跑國內(nèi)存儲市場

 2018-08-01 17:57  來源: 互聯(lián)網(wǎng)   我來投稿 撤稿糾錯

  域名預(yù)訂/競價,好“米”不錯過

1.SMR技術(shù)的前世今生

當(dāng)下大數(shù)據(jù)的爆發(fā)式增長使得原有的存儲容量無法滿足用戶需求,SMR(疊瓦式磁記錄)技術(shù)由此誕生。由于垂直磁記錄技術(shù)(Perpendicular Magnetic Recording)已經(jīng)逐漸達(dá)到存儲密度極限,單位存儲密度受限,已經(jīng)嚴(yán)重制約云存儲的應(yīng)用范圍與應(yīng)用效果。同樣的磁記錄技術(shù),通過疊加SMR技術(shù),可以提升15%-25%的磁道密度,進(jìn)一步降低單位GB成本,目前SMR盤單盤容量已經(jīng)達(dá)到14TB,預(yù)計2018年下半年硬盤廠商會發(fā)布18TB SMR盤,其容量是企業(yè)市場主流使用的8TB SATA/NL_SAS盤的2倍左右。

SMR盤利用磁盤讀數(shù)據(jù)時需要的磁道寬度比寫數(shù)據(jù)時需要的磁道寬度窄的特點,在寫數(shù)據(jù)時將磁道像疊瓦片一樣,一層一層的重疊起來。SMR技術(shù)通過重疊磁道,縮小了磁道間距離,提高了單位面積存儲密度,增加了磁盤容量(如圖1)。

圖1 SMR磁盤與普通磁盤磁記錄方式對比

SMR技術(shù)將來也可應(yīng)用于微波輔助磁記錄(Microwave-Assisted Magnetic Recording, MAMR)和熱輔助磁記錄技術(shù)(Heat-Assisted Magnetic Recording, HAMR)技術(shù)來提高容量,但對磁盤的制造工藝改變較大。SMR技術(shù)只需對現(xiàn)有磁盤做少量修改即可實現(xiàn),目前如希捷、西數(shù)等主要磁盤供應(yīng)商的產(chǎn)品線中都有SMR產(chǎn)品。

2.天翼云OOS KVDisker成功突破SMR技術(shù)瓶頸

目前SMR技術(shù)已成功應(yīng)用在中國電信天翼云OOS(對象存儲)產(chǎn)品系列中,并在天翼云OOS第五代存儲產(chǎn)品中進(jìn)行了規(guī)模商用,其成熟度得到了實踐證明。同時,天翼云計劃在OOS第六代(國家級存儲網(wǎng)絡(luò))中更大規(guī)模的使用。據(jù)業(yè)內(nèi)磁盤廠商了解,天翼云或是國內(nèi)第一家商用SMR技術(shù)的公司,成為存儲領(lǐng)域創(chuàng)新應(yīng)用的標(biāo)桿案例。

1)  SMR技術(shù)存在的局限與面臨的挑戰(zhàn)

SMR技術(shù)增加了容量,降低了成本,但這種技術(shù)應(yīng)用也帶來了問題與挑戰(zhàn)。磁道重疊后必須順序?qū)懭耄駝t會對相鄰磁道的數(shù)據(jù)造成損壞。正因為如此,目前業(yè)內(nèi)常用的磁盤文件系統(tǒng),例如EXT/XFS等,由于需要隨機(jī)的修改數(shù)據(jù)從而無法運行在SMR磁盤上,這對SMR的應(yīng)用帶來了不小的困難。據(jù)業(yè)內(nèi)人士表示,目前僅有微軟Azure等極個別國際云計算巨頭有足夠的技術(shù)規(guī)模商用SMR磁盤。

中國電信天翼云對象存儲(Object-Oriented Storage,以下簡稱OOS)一直在努力降低單位存儲空間的成本和能耗。在SMR磁盤上市的第一時間就聯(lián)系相關(guān)服務(wù)器和磁盤供應(yīng)商,開始了對SMR磁盤的測試。

應(yīng)用SMR磁盤主要存在以下幾個方面的問題:

1、若采用Drive Managed SMR模式,在磁盤內(nèi)部實現(xiàn)順序?qū)懭?,?yīng)用不需做任何修改。由于上層業(yè)務(wù)寫請求是隨機(jī)的,磁盤固件資源有限,性能無法保證,幾乎無法滿足業(yè)務(wù)需求,只適用于寫入后不再修改的歸檔數(shù)據(jù),無法用于OOS標(biāo)準(zhǔn)存儲。據(jù)業(yè)內(nèi)人士透露,曾有公司為了降低成本但又不想投入研發(fā)使用此類磁盤,導(dǎo)致性能過低,最終放棄使用。

2、若采用Host Managed SMR模式,將磁盤分為若干個Zone,Zone之間可以隨機(jī)寫,Zone內(nèi)部必須順序?qū)?。Host Managed SMR將Zone管理接口提供給主機(jī),由主機(jī)保證數(shù)據(jù)的順序?qū)懭?。由于引入了新的磁盤類型、新的管理命令,所以沒有現(xiàn)成的文件系統(tǒng)可以支持,需要對文件系統(tǒng)進(jìn)行修改或重新開發(fā)新的文件系統(tǒng)。目前還沒有成熟的文件系統(tǒng)實現(xiàn)了對Host Managed SMR磁盤的兼容。

3、在操作系統(tǒng)內(nèi)核和HBA卡的兼容上需要進(jìn)行嚴(yán)格的測試。不兼容的系統(tǒng)可能無法識別SMR磁盤,不兼容的HBA可能導(dǎo)致磁盤收到的SCSI命令亂序,進(jìn)而導(dǎo)致寫入失敗。

4、垃圾回收(Garbage Collection,以下簡稱GC):SMR磁盤要求順序?qū)懭霂淼膯栴}是刪除的空間不能直接重新利用,必須把有效數(shù)據(jù)移動到其他位置才能回收空間。GC會帶來寫放大,影響性能。如何合理的設(shè)計空間分配及回收算法以減少不必要的數(shù)據(jù)移動是SMR最終是否可用的一大挑戰(zhàn)。

5、數(shù)據(jù)重構(gòu)時間久:超大容量硬盤,一旦出現(xiàn)故障,其數(shù)據(jù)重構(gòu)時間將非常漫長,如果數(shù)據(jù)重構(gòu)期間又有磁盤損壞,對于副本數(shù)較少的對象來說可能會造成數(shù)據(jù)丟失。

2)天翼云OOS如何突破SMR技術(shù)瓶頸?

雖然SMR磁盤的應(yīng)用存在諸多技術(shù)挑戰(zhàn),但通過行業(yè)領(lǐng)先廠商的產(chǎn)品趨勢,我們能看到未來硬盤的發(fā)展方向,SMR技術(shù)將成為主流,即使未來會有諸如HAMR等進(jìn)一步提升磁密度的技術(shù)出現(xiàn),只要寫數(shù)據(jù)寬度大于讀數(shù)據(jù)寬度,SMR技術(shù)就會一直存在。同時,與SMR所對應(yīng)的“順序?qū)?rdquo;或許是未來的一種趨勢,因為固態(tài)盤也需要類似的機(jī)制對閃存顆粒的磨損進(jìn)行平滑處理。因此天翼云OOS的研發(fā)團(tuán)隊從2015年起就堅定不移的對Host Managed SMR進(jìn)行自主研發(fā)。

中國電信天翼云OOS通過產(chǎn)品設(shè)計和研發(fā)實力,在軟件層做了大量的優(yōu)化、消除,解決了技術(shù)提升帶來的負(fù)面影響,突破了SMR的技術(shù)局限性,體現(xiàn)疊瓦式存儲給單碟存儲容量提升帶來的優(yōu)勢,既能夠提高單機(jī)存儲容量的上限,又可以避免帶來讀寫效率、讀寫性能上的瓶頸。

同時,結(jié)合中國電信OOS的特點,天翼云設(shè)計了可以兼容SMR磁盤的一套類似文件系統(tǒng)的Key-Value存儲系統(tǒng)——KVDisker。結(jié)合對象存儲的特性,KVDisker能夠有效降低SMR技術(shù)引用帶來的問題與風(fēng)險,將技術(shù)與應(yīng)用完美的融合在一起,實現(xiàn)了在業(yè)界內(nèi)領(lǐng)先應(yīng)用基于SMR技術(shù)的磁盤。值得說明的是,KVDisker是中國電信天翼云OOS研發(fā)團(tuán)隊完全自主研發(fā)的技術(shù):不基于任何現(xiàn)成的文件系統(tǒng)(如EXT/XFS),而是直接讀寫磁盤;也沒有使用任何支持SMR的開源軟件,代碼全部自研;除與磁盤供應(yīng)商的上下游關(guān)系外,沒有得到任何廠家的外部支持。經(jīng)過一系列嚴(yán)格的測試,天翼云OOS研發(fā)團(tuán)隊還幫助磁盤供應(yīng)商發(fā)現(xiàn)并解決了磁盤固件中的一些bug,雙方的產(chǎn)品質(zhì)量都得到了提高。

KVDisker在OOS系統(tǒng)中的位置如圖2所示。其中,

(1)Object層負(fù)責(zé)協(xié)議的解析及對象屬性的保存;

(2)Ostor層負(fù)責(zé)對象的冗余保證;

(3)KVDisker負(fù)責(zé)讀寫磁盤:對上層業(yè)務(wù),KVDisker直接提供Key-Value API,可以很容易的接入到OOS現(xiàn)有系統(tǒng)中;對下層磁盤,KVDisker直接管理PMR和SMR磁盤,不需要文件系統(tǒng)。

圖2. KVDisker在系統(tǒng)中的位置

綜上所述,KVDisker針對SMR磁盤應(yīng)用中可能遇到的兼容性問題、性能問題、垃圾回收效率問題、下盤速度問題進(jìn)行了針對性優(yōu)化。

2.1 兼容性

天翼云聯(lián)合廠商對主流的HBA卡進(jìn)行了嚴(yán)格的測試。針對可能存在的SCSI命令亂序問題,通過在應(yīng)用層順序分配空間來保證指令的順序發(fā)送。

2.2 性能

在性能方面,天翼云從元數(shù)據(jù)、數(shù)據(jù)、空間分配三個維度,全面的提升了讀取、寫入、遍歷、檢索的效率。

1、元數(shù)據(jù):對比文件系統(tǒng)大而全的元數(shù)據(jù)結(jié)構(gòu),KVDisker的元數(shù)據(jù)僅保存了時間戳、數(shù)據(jù)位置、校驗值等必要的數(shù)據(jù),這樣KVDisker的元數(shù)據(jù)很小,大大的提高了檢索效率。

2、元數(shù)據(jù)保存:文件系統(tǒng)的元數(shù)據(jù)保存在磁盤的各個位置,導(dǎo)致遍歷文件慢。KVDisker的元數(shù)據(jù)有序的保存在磁盤的傳統(tǒng)區(qū)域,在特定測試環(huán)境下,遍歷效率比文件系統(tǒng)提升10倍。

3、元數(shù)據(jù)讀?。篕VDisker讀取元數(shù)據(jù)只需要一次請求,不需要查找目錄,提高了讀取效率。

4、空間分配:KVDisker順序的分配空間,充分利用了磁盤順序?qū)懭肟斓奶匦?,提升寫入速度?/p>

5、數(shù)據(jù)讀取:KVDisker直接發(fā)送SCSI指令讀取數(shù)據(jù),對超長的數(shù)據(jù)并行發(fā)送多條SCSI指令,充分利用磁盤請求隊列,優(yōu)化讀取速度。

2.3 垃圾回收

目前市面上的SMR磁盤每個Zone大小相等,都為256MB,回收一個Zone的數(shù)據(jù)需要先讀取有效數(shù)據(jù),然后寫入一個空閑的Zone,最后更新元數(shù)據(jù),整個過程可能需要數(shù)秒。對于SMR磁盤,垃圾回收算法設(shè)計是否合理嚴(yán)重影響系統(tǒng)性能的穩(wěn)定性,寫入數(shù)據(jù)的同時進(jìn)行垃圾回收會帶來響應(yīng)延時,影響業(yè)務(wù)和用戶體驗。GC會導(dǎo)致寫放大,合理的選擇GC的Zone,能夠減少移動數(shù)據(jù)的總量,提升系統(tǒng)性能,減少能量消耗。

底層系統(tǒng)很難確定哪些是冷數(shù)據(jù),哪些是熱數(shù)據(jù),一般認(rèn)為寫入時間越久的數(shù)據(jù)刪除的可能性越小。上層業(yè)務(wù)卻可以知道部分記錄的生命周期。對象存儲中,用戶可以為Bucket(容器或桶)用戶設(shè)置生命周期、過期后即會被刪掉,以及系統(tǒng)的日志記錄,定期會將過期數(shù)據(jù)刪除,盡量不進(jìn)行垃圾回收。對象存儲中的歸檔數(shù)據(jù),用戶會保證至少保存一定時間,刪除的可能性小,優(yōu)先進(jìn)行GC。KVDisker將這種具有相同生命周期的數(shù)據(jù)寫入到相同的Zone,合理區(qū)分冷熱數(shù)據(jù)。

KVDisker設(shè)計了一套動態(tài)選擇回收的Zone的機(jī)制。根據(jù)系統(tǒng)的繁忙程度、容量使用情況確定是否進(jìn)行GC以及GC的并發(fā)數(shù)。根據(jù)Zone中數(shù)據(jù)的最后寫入時間、有效數(shù)據(jù)比例選擇回收的Zone。GC移動的數(shù)據(jù),會按照寫入時間或生命周期不同分別寫入不同的Zone,使冷熱數(shù)據(jù)分離。KVDisker的GC算法極大的降低了GC移動的數(shù)據(jù)量,減少了對業(yè)務(wù)的影響。

2.4 下盤速度

磁盤容量增大后,如果在磁盤下線的過程中再次發(fā)生磁盤損壞就有可能導(dǎo)致數(shù)據(jù)丟失。OOS下盤時整個集群的磁盤參與數(shù)據(jù)重建,加上KVDisker遍歷速度快的特點,磁盤下線速度明顯提升。在特定測試環(huán)境下,速度能提升至少50%。

2.5 可靠性

KVDisker設(shè)計充分考慮了對數(shù)據(jù)安全性的校驗。KVDisker對數(shù)據(jù)、索引和日志都設(shè)計了校驗,讀取時可以及時發(fā)現(xiàn)任何錯誤。

由于磁盤的物理特點,可能會有部分扇區(qū)出現(xiàn)unreadable,如果不能及時發(fā)現(xiàn)對應(yīng)的記錄,并進(jìn)行修復(fù),很可能會發(fā)生數(shù)據(jù)丟失的問題。KVDisker設(shè)計了按照數(shù)據(jù)存放位置排序進(jìn)行的索引,通過遍歷位置索引,利用磁盤順序讀取快的特點,順序的檢查磁盤數(shù)據(jù)的完整性,及時發(fā)現(xiàn)錯誤的記錄。

KVDisker設(shè)計了修復(fù)回調(diào)接口,對于審計失敗和讀取失敗的數(shù)據(jù),以回調(diào)的方式通知上層應(yīng)用及時修復(fù)。通過壞塊的修復(fù)功能,可以顯著減少換盤的頻率,降低系統(tǒng)負(fù)載,減少工作量。

KVDisker的操作具有原子性,不會出現(xiàn)部分Key或Value數(shù)據(jù)殘留的情況。這一優(yōu)于普通文件系統(tǒng)的特性使得在處理數(shù)據(jù)沖突的時候,不需要任何加鎖行為即可保證數(shù)據(jù)的一致性,這不僅簡化了編程,還提高了并行處理效率。

3. KVDisker的應(yīng)用場景

應(yīng)用場景1:視頻監(jiān)控產(chǎn)生的數(shù)據(jù)量巨大,需要大量的存儲空間,數(shù)據(jù)會做定期刪除。

應(yīng)用場景2:云盤和歸檔數(shù)據(jù)需要的空間大,刪除的頻率低。

存儲數(shù)據(jù)量大,需定期刪除或刪除率低的情況,都非常適用SMR磁盤。采用SMR磁盤可以使用更少的服務(wù)器,更少的機(jī)架空間,更少的能源消耗。

中國電信于2017年率先在部分省份規(guī)模部署了基于Host Managed (非Device Managed)SMR磁盤的云存儲集群,并搭配KVDisker使用。所采用的8TB SMR盤與6TB普通盤物理材料基本相同,使用8T SMR盤可以減少33%的服務(wù)器數(shù)量。6T磁盤與8T磁盤功耗基本一致,也可以節(jié)省大約33%的能源消耗。基于Host Managed SMR的OOS在KVDisker的支持下,運行至今效果非常好,開始進(jìn)入了大規(guī)模商用階段。

目前部分主流磁盤供應(yīng)商都已經(jīng)發(fā)布了基于氦氣的14T規(guī)格的SMR磁盤。由于氦氣的密度只有空氣的1/7,更小的風(fēng)阻大大降低了磁盤轉(zhuǎn)動功耗,同時也使得磁盤碟片可以更接近以提升單磁盤容量,少機(jī)房空間占用,降低能源消耗。與業(yè)界通用的8T普通盤比較,8T普通盤和14T盤的功耗基本是一樣的。如圖3所示,采用14T SMR磁盤大約可以節(jié)約40%的機(jī)架空間,降低43%電量消耗。

圖3. 使用8T普通盤和14TSMR盤對比

在可見的預(yù)期內(nèi),SMR技術(shù)離實現(xiàn)大規(guī)模應(yīng)用,仍有一段艱難的路要走,中國電信天翼云OOS產(chǎn)品將致力于為用戶提供最優(yōu)服務(wù),以技術(shù)創(chuàng)新助力存儲技術(shù)的未來發(fā)展。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)標(biāo)簽
云存儲
移動存儲

相關(guān)文章

熱門排行

信息推薦