1. 創(chuàng)業(yè)頭條
  2. 前沿領(lǐng)域
  3. 大數(shù)據(jù)
  4. 正文

國(guó)產(chǎn)圖數(shù)據(jù)庫(kù)廠商「費(fèi)馬科技」通過(guò)LDBC-SNB官方審計(jì)測(cè)試,達(dá)到原紀(jì)錄的7.6倍

 2020-07-31 15:08  來(lái)源:互聯(lián)網(wǎng)  我來(lái)投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過(guò)

近年來(lái),隨著大數(shù)據(jù)技術(shù)的發(fā)展,社交網(wǎng)絡(luò)、交易網(wǎng)絡(luò)、知識(shí)圖譜等圖數(shù)據(jù)也得以大量積累,從而有力的推動(dòng)了圖數(shù)據(jù)的應(yīng)用。目前,圖數(shù)據(jù)已經(jīng)被成功應(yīng)用于包括金融風(fēng)控、推薦、工業(yè)流程控制、設(shè)備管理等許多領(lǐng)域。圖數(shù)據(jù)庫(kù)作為管理圖數(shù)據(jù)的基礎(chǔ)軟件,也吸引了許多廠商的注意。近年來(lái),包括Oracle、IBM、微軟在內(nèi)的傳統(tǒng)軟件巨頭及眾多初創(chuàng)企業(yè)都大舉進(jìn)軍圖數(shù)據(jù)庫(kù)領(lǐng)域。

北京費(fèi)馬科技有限公司是一家以研發(fā)圖數(shù)據(jù)庫(kù)和圖計(jì)算軟件為目標(biāo)的初創(chuàng)企業(yè)。在此前36氪的報(bào)道中,我們注意到這家由多名清華博士創(chuàng)辦的公司對(duì)圖計(jì)算技術(shù)有深厚的積累。今天我們欣喜地看到,費(fèi)馬科技的圖數(shù)據(jù)庫(kù)TuGraph取得了突破,在國(guó)內(nèi)企業(yè)中率先通過(guò)了國(guó)際基準(zhǔn)官方審計(jì)測(cè)試并取得了國(guó)際領(lǐng)先的測(cè)試結(jié)果。

2020年7月30日,費(fèi)馬科技宣布,公司成為國(guó)內(nèi)第一家通過(guò)圖數(shù)據(jù)庫(kù)國(guó)際標(biāo)準(zhǔn)基準(zhǔn)測(cè)試程序LDBC-SNB官方審計(jì)測(cè)試的企業(yè),同時(shí)打破了LDBC-SNB已經(jīng)公布的最高紀(jì)錄。在中大規(guī)模數(shù)據(jù)集(300GB)上,吞吐率達(dá)到之前最高紀(jì)錄(由Virtuoso保持)的7.6倍。

圖1. 審計(jì)測(cè)試成功的聲明頁(yè)截圖(含認(rèn)證審計(jì)員,LDBC SNB任務(wù)組主任和費(fèi)馬科技CTO的簽名)

讀者可以通過(guò)以下鏈接訪問(wèn)LDBC官網(wǎng)上的正式公布的測(cè)試結(jié)果,并下載測(cè)試報(bào)告、程序、說(shuō)明文檔以及軟硬件信息等。

LDBC SNB官方網(wǎng)站 http://ldbcouncil.org/benchmarks/snb

測(cè)試報(bào)告下載: http://ldbcouncil.org/sites/default/files/LDBC_SNB_I_20200726_SF30-100-300_tugraph.pdf

關(guān)于LDBC和LDBC-SNB測(cè)試:

1.關(guān)聯(lián)數(shù)據(jù)基準(zhǔn)委員會(huì)(LDBC,Linked Data Benchmark Council)是由Oracle、Intel等軟硬件巨頭和主流圖數(shù)據(jù)庫(kù)廠商N(yùn)eoTechnology和TigerGraph等組成的非贏利機(jī)構(gòu),是圖(Graph)和RDF數(shù)據(jù)管理的基準(zhǔn)指南制定者與測(cè)試結(jié)果發(fā)布機(jī)構(gòu)。

2.社交網(wǎng)絡(luò)基準(zhǔn)測(cè)試(SNB,Social Network Benchmark)是由關(guān)聯(lián)數(shù)據(jù)基準(zhǔn)委員會(huì)(LDBC)開(kāi)發(fā)的面向圖數(shù)據(jù)庫(kù)的基準(zhǔn)測(cè)試(Benchmark)之一,分為交互式查詢(Interactive)和商業(yè)智能(BI)兩個(gè)場(chǎng)景。本次費(fèi)馬公司測(cè)試了其中的交互式查詢場(chǎng)景,主要考察系統(tǒng)在并發(fā)情況下的更新和交互式查詢吞吐率。 與很多廠商采用的基于單項(xiàng)測(cè)試的評(píng)測(cè)方式相比,LDBC-SNB(Interactive)更接近真實(shí)場(chǎng)景并對(duì)數(shù)據(jù)庫(kù)系統(tǒng)的并發(fā)執(zhí)行性能和事務(wù)處理能力進(jìn)行了更具挑戰(zhàn)性的評(píng)測(cè)。

測(cè)試詳情

據(jù)公司創(chuàng)始人洪春濤介紹,本次測(cè)試采用LDBC SNB的30G(SF30)、100G(SF100)、300G(SF300)三個(gè)規(guī)模的數(shù)據(jù)集,其中300G數(shù)據(jù)集包含8億結(jié)點(diǎn)53億邊及相關(guān)屬性。查詢操作由7類(lèi)簡(jiǎn)單只讀查詢,14類(lèi)復(fù)雜只讀查詢和8類(lèi)事務(wù)類(lèi)更新查詢按LDBC SNB Interactive測(cè)試規(guī)范規(guī)定的比例組合并發(fā)執(zhí)行,并以吞吐率為性能指標(biāo)??梢钥吹?,TuGraph在數(shù)據(jù)量增大時(shí)仍能保持較高的性能,體現(xiàn)了其對(duì)大規(guī)模數(shù)據(jù)的良好支撐能力。

下表為不同數(shù)據(jù)規(guī)模下的測(cè)試結(jié)果,吞吐率(OPS)表示每秒完成的操作次數(shù)。

表1. 不同數(shù)據(jù)規(guī)模SF30(30GB),SF100(100GB)和SF300(300GB)的測(cè)試結(jié)果

CTO朱曉偉表示,公司在測(cè)試環(huán)境準(zhǔn)備、測(cè)試數(shù)據(jù)生成和導(dǎo)入、測(cè)試?yán)绦虻陌惭b和執(zhí)行、結(jié)果正確性的驗(yàn)證方面都嚴(yán)格遵守LDBC-SNB的規(guī)范。整個(gè)測(cè)試過(guò)程由LDBC認(rèn)證的評(píng)估師在其租用的標(biāo)準(zhǔn)云系統(tǒng)上操作完成,并對(duì)測(cè)試代碼進(jìn)行了詳細(xì)的評(píng)審。整個(gè)測(cè)試環(huán)境和測(cè)試過(guò)程均完整披露并可在LDBC網(wǎng)站上公開(kāi)下載,保證了測(cè)試結(jié)果的可信性和公正性。

LDBC-SNB Interactive的主要測(cè)試要求包括:基準(zhǔn)程序會(huì)通過(guò)多個(gè)客戶端并發(fā)地發(fā)送各類(lèi)讀寫(xiě)請(qǐng)求到服務(wù)器端,每個(gè)請(qǐng)求都有相應(yīng)的計(jì)劃時(shí)間,數(shù)據(jù)庫(kù)需要盡可能地使得所有操作都按計(jì)劃正常進(jìn)行;一旦某個(gè)操作晚于計(jì)劃時(shí)間超過(guò)1秒以上則視作超時(shí),如果超時(shí)比例大于5%則無(wú)法通過(guò)測(cè)試,對(duì)圖數(shù)據(jù)庫(kù)的更新和查詢性能提出了很高的要求;查詢分為7類(lèi)簡(jiǎn)單查詢和14類(lèi)復(fù)雜查詢,每類(lèi)復(fù)雜查詢?cè)诓煌瑪?shù)據(jù)規(guī)模下根據(jù)其復(fù)雜度以不同的頻率混合在一起,簡(jiǎn)單查詢則穿插在這些復(fù)雜查詢之間;8類(lèi)更新操作中不少都涉及多個(gè)數(shù)據(jù)對(duì)象的更新,因此需要ACID事務(wù)的支持來(lái)保證操作的正確性,SNB規(guī)范要求隔離級(jí)別至少達(dá)到提交讀(Read Committed),并在審計(jì)過(guò)程中對(duì)ACID支持進(jìn)行了特別的測(cè)試。

值得注意的是,在本次測(cè)試中,TuGraph的超時(shí)比例為0%,且SNB實(shí)現(xiàn)了最高的隔離級(jí)別可串行化(Serializable),說(shuō)明TuGraph在提供了高級(jí)別的事務(wù)隔離保證的同時(shí)仍然獲得了低延遲和遠(yuǎn)遠(yuǎn)超過(guò)其它數(shù)據(jù)庫(kù)的吞吐率。

CTO朱曉偉表示,相比同類(lèi)型的圖數(shù)據(jù)庫(kù)產(chǎn)品,TuGraph可以支持更大的數(shù)據(jù)量,提供更快的響應(yīng),支持更多的并發(fā)查詢,因此也更適應(yīng)大數(shù)據(jù)時(shí)代。TuGraph在系統(tǒng)的設(shè)計(jì)目標(biāo)上圍繞實(shí)時(shí)圖數(shù)據(jù)分析的特點(diǎn)展開(kāi):一方面,絕大部分請(qǐng)求是在最新數(shù)據(jù)上的只讀查詢,因此存儲(chǔ)引擎需要面向讀優(yōu)化,并需要對(duì)其中一些查詢操作采用并行的方式進(jìn)行處理;另一方面,數(shù)據(jù)庫(kù)需要在快速完成這些只讀查詢的同時(shí)處理源源不斷的數(shù)據(jù)更新,而這些修改請(qǐng)求可能來(lái)自多個(gè)客戶端,因此需要完善的事務(wù)支持,并需要盡可能地避免使用全局鎖導(dǎo)致并發(fā)度的降低。為此,TuGraph實(shí)現(xiàn)了多版本的存儲(chǔ)使得只讀事務(wù)可以無(wú)阻塞地進(jìn)行,并且提供了樂(lè)觀和悲觀兩種模式的讀寫(xiě)事務(wù),從而針對(duì)不同情形提供最優(yōu)化的事務(wù)管理,在并發(fā)度和讀寫(xiě)效率間取得較好的權(quán)衡;針對(duì)復(fù)雜的分析任務(wù),提供了并行遍歷和迭代式圖計(jì)算的接口,通過(guò)多個(gè)線程的協(xié)同工作來(lái)保障任務(wù)不會(huì)超時(shí)并持續(xù)占用系統(tǒng)資源。除此之外,TuGraph提供了豐富的開(kāi)發(fā)接口:不僅支持描述式的查詢語(yǔ)言O(shè)penCypher以方便用戶更快地上手和開(kāi)發(fā)原型,還提供了過(guò)程式的核心API讓用戶可以通過(guò)存儲(chǔ)過(guò)程的方式對(duì)一些需要追求極致性能的場(chǎng)景進(jìn)行加速;存儲(chǔ)過(guò)程支持開(kāi)發(fā)效率較高的Python和執(zhí)行效率較高的C++,未來(lái)還將增加受眾較廣的Java作為開(kāi)發(fā)語(yǔ)言;訪問(wèn)上同時(shí)支持RESTful和RPC兩種方式供用戶選擇。這些豐富的選項(xiàng)使得用戶可以在開(kāi)發(fā)和生產(chǎn)環(huán)境上根據(jù)各自不同的場(chǎng)景和需求靈活地選擇最適合的使用方式,在易用性和高效性兩方面取得更好的平衡。

關(guān)于費(fèi)馬

根據(jù)36氪此前報(bào)道,費(fèi)馬科技成立于2016年5月,擁有圖數(shù)據(jù)平臺(tái)(TuGraph,曾用名LightGraph)、圖分析平臺(tái)(PandaGraph)兩大產(chǎn)品。TuGraph的定位是高性能單機(jī)版圖數(shù)據(jù)庫(kù),這也是目前市場(chǎng)占有率最高的產(chǎn)品類(lèi)型。費(fèi)馬科技基于創(chuàng)始團(tuán)隊(duì)在圖計(jì)算領(lǐng)域積累的經(jīng)驗(yàn)以及領(lǐng)先的科研成果,研發(fā)出的TuGraph具有高性能、大數(shù)據(jù)量以及穩(wěn)定易用的特點(diǎn),因此被廣大客戶所信賴。目前,費(fèi)馬科技的產(chǎn)品已經(jīng)被多個(gè)領(lǐng)域的頭部客戶所采用,包括京東數(shù)科、大型國(guó)有銀行及商業(yè)銀行等金融業(yè)客戶,以及國(guó)家電網(wǎng)、中國(guó)商飛、西門(mén)子等工業(yè)部門(mén)用戶。

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)文章

編輯推薦