XSKY打造Hadoop HDFS高性能客戶端，構筑數據湖理想底座

2019-08-22 16:47 來源：互聯網我來投稿撤稿糾錯

　域名預訂/競價，好“米”不錯過

隨著全球數據呈爆發(fā)式增長，基于海量數據的挖掘和分析，為用戶帶來了巨大的商業(yè)價值。源于開源平臺的Apache Hadoop，允許使用簡單的編程模型跨計算機集群分布式處理大型數據集，成為大數據時代最受歡迎的技術之一。

01 性能瓶頸

HDFS分布式文件系統作為Hadoop的三大組件之一，是分布式計算中數據存儲管理的基礎。但是在HDFS傳統架構下，Hadoop擴展性受到了一定限制，容易出現性能瓶頸等問題。

圖片來源：Hadoop官方文檔

例如，由于HDFS中每個文件、目錄和數據塊的元數據信息（大約150字節(jié)）必須存儲在NameNode的內存中，這也就意味著對于一個擁有大量文件的超大集群來說，內存將成為限制系統橫向擴展的瓶頸。

同時，作為一個可擴展的文件系統，單個集群中支持數千個節(jié)點。在單個命名空間中DataNode可以擴展的很好，但是NameNode并不能在單個命名空間進行橫向擴展。通常情況下，HDFS集群的性能瓶頸出現在單個NameNode上。

雖然，在Hadoop 2.x發(fā)行版中引入了聯邦HDFS功能，允許系統通過添加多個NameNode來實現擴展。但是，系統管理員需要維護多個NameNodes和負載均衡服務，這又無形中增加了管理成本。

此外，大數據平臺建設和應用中還亟待解決以下問題：

? 在傳統的Apache Hadoop集群系統中，計算和存儲資源緊密耦合。當存儲空間或計算資源不足時，只能同時對兩者進行擴容，不僅擴容不方便，且經濟效率較低；

? Hadoop的數據備份方案昂貴，且難以實現；

? 不同部門、平臺各自建大數據系統，數據不共享，導致大數據計算平臺碎片化，逐漸形成大數據煙囪。

02 XSKY HDFS Client

為了解決上述問題，業(yè)界一般采用對象存儲來作為Hadoop的后端存儲，解決上面HDFS的各種問題，構建數據湖解決方案。

Hadoop社區(qū)也開發(fā)了S3A連接器，用來對接標準的S3對象存儲。但是，標準的S3A連接器的性能一般比HDFS要差很多，而且不支持追加寫，因此只能支持部分對性能不高的業(yè)務，或者作為Hadoop分層存儲使用。

為此，XSKY開發(fā)了基于對象存儲XEOS的專用Hadoop HDFS高性能客戶端XSKY HDFS Client。

XSKY HDFS Client和S3A架構對比

通過XSKY HDFS Client，Hadoop應用可以訪問存儲在XEOS中的所有數據，這就避免了傳統的Hadoop應用在進行數據分析前，還要將數據由業(yè)務存儲移動到分析存儲HDFS中。

XSKY HDFS Client為Hadoop應用提供了標準的 Hadoop 文件系統操作接口。在每個計算節(jié)點上，Hadoop應用都將使用XSKY HDFS Client (JAR) 執(zhí)行 Hadoop文件系統的操作，XSKY HDFS Client屏蔽了Hadoop應用與XEOS集*互的復雜性。

相比于原生Hadoop S3A對接對象存儲的方式，XSKY HDFS Client可以直接訪問存儲集群的OSD，IO路徑更短；同時，XSKY HDFS Client具有追加寫的功能，可以匹配Hadoop文件系統對追加寫的需求。

XSKY內部對在業(yè)界最廣泛應用的Hadoop商業(yè)發(fā)行版本之一Cloudera CDH的TestDFSIO測試中顯示，部署了XSKY HDFS Client的 XEOS集群寫性能超過采用Remote HDFS系統的94%，讀性能超過77%（兩種測試硬件配置一樣，節(jié)點數都是8節(jié)點，其中存儲和Datanode都是3節(jié)點）。

WordCount測試中，性能瓶頸主要在CDH計算集群的CPU使用率，兩組測試環(huán)境計算集群的CPU均達到了100%。HDFS對1TB數據進行WordCount計算的時間消耗為46分22秒，而XEOS的時間消耗為47分20秒，相差不大。

HBase寫測試中，HDFS對30,000,000條數據進行寫入時間消耗為2分23秒，而XEOS的時間消耗為2分55秒，與HDFS比相差30秒左右。但是從HBase統計的IOPS來看，HDFS和XEOS相差不大。

HBase讀測試，HDFS對30,000,000條數據進行讀取時間消耗為47秒，而XEOS的時間消耗為46秒，幾乎沒有差別。但是從HBase統計的IOPS來看， XEOS明顯高于HDFS。

03客戶收益

? 計算存儲分離部署，按需擴容，大幅降低TCO；

? 更加優(yōu)化的性能，以及企業(yè)級存儲特性；

? 適用于大數據平臺的容災備份；

? 同時支持生產業(yè)務、Hadoop、MPP、AI等計算業(yè)務，解決數據孤島問題；

? 一套存儲系統，承載多個異構平臺的數據整合，加速數據流動；

? NFS、HDFS、S3三種協議互通，三種協議來源的數據都可以統一進行in-place分析，分析結果可以通過S3實時發(fā)布。

XSKY目前已經實現塊、文件、對象、HDFS支持，為企業(yè)用戶構建了真正統一的數據存儲平臺，可實現用戶從核心生產到海量數據分析的最大化數據整合，助力構筑企業(yè)數據湖理想底座！

申請創(chuàng)業(yè)報道，分享創(chuàng)業(yè)好點子。點擊此處，共同探討創(chuàng)業(yè)新機遇！

相關標簽: 大數據技術

大數據如何服務“三農”？北京佳格天地受邀出席2022世界數字農業(yè)大會作專題分享

日前,2022世界數字農業(yè)大會舉行。大會以“種鑄強芯,數領未來”為主題,開設多場數字農業(yè)云端專題論壇,北京佳格天地科技有限公司受邀出席”農業(yè)農村大數據應用論壇“,同與會嘉賓分享了農業(yè)大數據的創(chuàng)新應用。

標簽：

大數據

大數據應用

大數據技術
秦淮數據馬來西亞超大規(guī)模數據中心盛大開園

近日，秦淮數據集團位于馬來西亞柔佛州的秦淮數據馬來柔佛超大規(guī)模數據中心(以下簡稱“MY06”)一期盛大開園。從規(guī)劃、設計到建造，秦淮數據集團中國、新加坡、馬來西亞三地團隊緊密合作，共同完成馬來西亞最大的國際超大規(guī)模數據中心交付

標簽：

大數據技術
光點數據中臺產品GI大數據中臺V2.0與東方通產品兼容互認

廣州光點信息科技有限公司自主研發(fā)的數據中臺產品GI大數據中臺V2.0產品是國內率先推出符合新創(chuàng)標準的中臺產品,基于“大數據+AI”等技術全新打造,集數據采集、融合、治理、服務、管理為一體的旗艦平臺。

標簽：

大數據

大數據技術
蒼穹數碼成功入圍2022年第一批大數據企業(yè)公告榜單

為深入貫徹黨中央、國務院關于推進數字經濟發(fā)展的戰(zhàn)略決策部署，落實《北京市關于加快建設全球數字經濟標桿城市的實施方案》(京辦發(fā)(2021)16號)等政策精神，促進大數據產業(yè)規(guī)范發(fā)展

標簽：

大數據技術
中科視語“句容新型數據智算中心”重點項目簽約，聚力推進句容“產業(yè)強市”建設

8月29日下午，2022年句容經濟開發(fā)區(qū)第二批項目集中簽約暨重大產業(yè)項目集中開竣工活動成功舉行。中科視語與句容市簽署戰(zhàn)略協議，進一步加大數智化投入，與江蘇有線等多家合作單位共同打造“句容新型數據智算中心”

標簽：

大數據產業(yè)

大數據技術

實測5家BI產品，誰是中國的Power BI？

把脈中國數據智能化
“多云多模型”時代到來，火山引擎的數字化升級“刀法”

2023年，幾乎可以被定義為中國互聯網公司的“大模型元年”。ChatGPT的全球爆紅，徹底點燃國內的大模型賽道，曾經的“創(chuàng)業(yè)英雄”、如今的商業(yè)領袖們親自下場，接連發(fā)布生成式人工智能產品與大模型布局。大模型火了，沉寂許久的互聯網行業(yè)又有了新的“戰(zhàn)事”。同時，大模型的快速發(fā)展也改變了云市場的現狀，企業(yè)對

標簽：

數字化技術
數新網絡DataCyber云數據平臺入選《愛分析 · 數據智能廠商全景報告》

近日，數字化市場研究咨詢機構愛分析發(fā)布了《2022愛分析·數據智能廠商全景報告》，愛分析從技術研發(fā)能力、服務客戶數量、收入規(guī)模等維度對廠商進行了全面專業(yè)的評估

標簽：

大數據
百分點科技在首屆中國大數據大賽中成功奪冠

2022年11月18日,首個國家級大數據產業(yè)創(chuàng)新賽事——2022第一屆中國大數據大賽圓滿落幕。工業(yè)和信息化部信息技術發(fā)展司數字經濟推進處處長張建倫,中國電子技術標準化研究院副院長孫文龍出席頒獎典禮并致辭

標簽：

大數據

大數據產業(yè)
大咖云集 | 2022數據資產（廈門）論壇成功舉辦

2022年11月17日，在廈門市工業(yè)和信息化局的指導下，以“數據確權”為主題的2022數據資產(廈門)論壇在廈門成功舉辦。本次論壇以“數據確權”為主題，由廈門市互聯網域名應用服務產業(yè)協會和構信網(公信.中國)聯合主辦

標簽：

數據中心

大數據
睿帆科技成功入選《2022愛分析·信創(chuàng)廠商全景報告》

近日，國內知名數字化市場研究咨詢機構愛分析正式發(fā)布《2022愛分析·信創(chuàng)廠商全景報告》(以下簡稱“報告”)。報告綜合考慮企業(yè)關注度、行業(yè)落地進展等因素，遴選出在信創(chuàng)市場中具備成熟解決方案和落地能力的廠商。

標簽：

數據庫

大數據

百望云楊正道:數字經濟正在催生由數據驅動的“智能監(jiān)管”

10月31日下午,由數博會執(zhí)委會主辦、數據觀(北京)傳媒科技有限公司承辦、貴陽大數據交易所協辦的第四期數博思享會“實踐先行觀公共數據價值與應用”活動成功舉辦。

標簽：

數字技術

大數據
第一屆中國大數據大賽正式啟動，3大賽道全面開放

近日，由中國國際數字經濟博覽會組委會主辦，中國電子技術標準化研究院、河北省工業(yè)和信息化廳承辦的“第一屆中國大數據大賽”(簡稱大數據大賽)正式啟動。

標簽：

大數據

大數據產業(yè)
光點數據中臺產品GI大數據中臺與人大金倉完成兼容認證

廣州光點信息科技有限公司自主研發(fā)的數據中臺產品GI大數據中臺V2.0產品是國內率先推出符合新創(chuàng)標準的中臺產品,基于“大數據+AI”等技術全新打造,集數據采集、融合、治理、服務、管理為一體的旗艦平臺。

標簽：

數據中臺

大數據
光點數據中臺產品GI大數據中臺與統信軟件完成兼容認證

廣州光點信息科技有限公司自主研發(fā)的數據中臺產品GI大數據中臺V2.0產品是國內率先推出符合新創(chuàng)標準的中臺產品,基于“大數據+AI”等技術全新打造,集數據采集、融合、治理、服務、管理為一體的旗艦平臺

標簽：

數據中臺

大數據

加載更多

XSKY打造Hadoop HDFS高性能客戶端，構筑數據湖理想底座

相關文章

大數據如何服務“三農”？北京佳格天地受邀出席2022世界數字農業(yè)大會作專題分享

秦淮數據馬來西亞超大規(guī)模數據中心盛大開園

光點數據中臺產品GI大數據中臺V2.0與東方通產品兼容互認

蒼穹數碼成功入圍2022年第一批大數據企業(yè)公告榜單

中科視語“句容新型數據智算中心”重點項目簽約，聚力推進句容“產業(yè)強市”建設

實測5家BI產品，誰是中國的Power BI？

“多云多模型”時代到來，火山引擎的數字化升級“刀法”

數新網絡DataCyber云數據平臺入選《愛分析 · 數據智能廠商全景報告》

百分點科技在首屆中國大數據大賽中成功奪冠

大咖云集 | 2022數據資產（廈門）論壇成功舉辦

睿帆科技成功入選《2022愛分析·信創(chuàng)廠商全景報告》

百望云楊正道:數字經濟正在催生由數據驅動的“智能監(jiān)管”

第一屆中國大數據大賽正式啟動，3大賽道全面開放

光點數據中臺產品GI大數據中臺與人大金倉完成兼容認證

光點數據中臺產品GI大數據中臺與統信軟件完成兼容認證

熱門排行

編輯推薦

XSKY打造Hadoop HDFS高性能客戶端，構筑數據湖理想底座

相關文章

熱門排行

編輯推薦

XSKY打造Hadoop HDFS高性能客戶端，構筑數據湖理想底座