當前位置:首頁 >  IDC >  云計算 >  正文

吃下 GuanceDB 狗糧后,觀測云查詢性能提升超 30 倍!

 2023-05-08 16:00  來源: 互聯(lián)網   我來投稿 撤稿糾錯

  域名預訂/競價,好“米”不錯過

(本文作者:觀測云資深系統(tǒng)開發(fā)工程師 熊豹)

2023 年 4 月 23 日,觀測云正式發(fā)布自研時序數據庫 GuanceDB,并在當天應用到了觀測云所有 SaaS 節(jié)點的底座。此次升級性能提升的效果立竿見影,對比之前使用 InfluxDB 的環(huán)境資源占用大幅降低、查詢性能顯著提升,我們成功地吃上了自己的狗糧。

我們也深知 talk is cheap show me the benchmark 的道理,這里發(fā)布我們在近期完成的 GuanceDB 性能壓測報告。

壓測方案說明

本次測試的目標是對比 GuanceDB、InfluxDB 和某知名開源時序數據庫(簡稱 xxDB)在相同的寫入負載和查詢條件下的性能表現(xiàn)及資源占用情況。

關于測試工具:

我們對比 tsbs、prometheus-benchmark 兩種時序數據庫的壓測方案。

其中 prometheus-benchmark 構造了更偏真實環(huán)境的持續(xù)寫入負載,指標數值的變化也更真實,所以我們主要參考 prometheus-benchmark 來構造本次測試。

原 prometheus-benchmark 方案中使用了 vmagent 來抓取和寫入指標,但我們今天測試的 3 種數據庫對 Prometheus 寫入協(xié)議支持力度不一,沒法一起比較。所以我們對 vmagent 進行了一些改造,讓其支持了 InfluxDB 的行寫入協(xié)議。

本次測試的最終方案如下:

1.部署的一個單機的 node-exporter ,其暴露宿主機的 1383 個真實指標

2.部署 Nginx 反代并緩存 node-exporter 結果 1s,降低頻繁請求的壓力

3.調整 agent 的抓取配置,模擬生成不同的 node-exporter 實例數以生成不同的寫入負載

4.agent 以相同的請求大小、頻率將數據同時以 influx 協(xié)議 http 接口寫入三種時序數據庫

軟件版本:

1.GuanceDB: v1.0.0

2.InfluxDB: v1.8.10

3.xxDB

主機配置:

1.壓測機:1 臺阿里云 ecs.g7.16xlarge 云主機:64 core,128 GB RAM

2.存儲集群:3 臺阿里云 ecs.g7.4xlarge 云主機:16 core,64 GB RAM,200 GB PL1 類型 ESSD

部署方式:

因為 InfluxDB 的開源版本不支持集群模式,所以我們也將分兩組進行測試。一組是 InfluxDB 與 GuanceDB、xxDB 的單機版本對比,另一組是 GuanceDB 與 xxDB 的集群模式進行對比,集群模式都使用 3 個存儲節(jié)點。

參數優(yōu)化:

GuanceDB 對大部分場景都做了自動調優(yōu),所以我們不用手動調整配置。

InfluxDB 默認對高基數場景做了一些保護,我們調整 max-series-per-database = 0 放開了限制,cache-max-memory-size 增大到了 10g,并且開啟 tsi1 索引。

xxDB 我們也參考文檔進行了針對性的調優(yōu)。

至此完成所有配置,開始測試。

寫入測試

單機組

本組測試進行的測試輪次比較多,這里我們挑選某一輪展示詳細監(jiān)控截圖。

在此輪測試中,我們虛擬了 344 個 node-exporter 實例,生成大約 50w 條活躍時間線,5s 抓取一次,時序點寫入 QPS 10w。

GuanceDB 資源開銷:CPU 占用率 2%,內存占用約 3 GB。

InfluxDB 資源開銷:CPU 占用率 16%,內存占用約 7.4 GB。

xxDB 資源開銷:CPU 占用率 61%,內存占用 9 GB。

匯總結果表格如下:

完成了限定性能的測試場景后,我們很好奇要多大的壓力才能將各臺數據庫主機的資源打滿,尤其對 GuanceDB,響應 10w 寫入 QPS 僅僅花費了 2% 的 CPU 開銷,它的性能上限在哪里?隨即我們開始加大 QPS,當各臺主機的 CPU,內存和磁盤若有一項被打滿時,即被認為到達瓶頸。

實際測試結果都是主機的 CPU 先被打滿,此時內存占用和磁盤寫入帶寬都還有余量,所以我們就以 CPU 利用率為瓶頸指標畫出以下對比圖:

在單機場景下,當 CPU 達到滿載時,xxDB 的寫入 QPS 約 15w,InfluxDB 約 90w,GuanceDB 約 270w。本輪 GuanceDB 獲得第一,寫入性能是 InfluxDB 的 3 倍。也可以看到在 CPU 利用率超過 20% 后,性能不再呈線性增長,都有一定程度衰退。

集群組

我們按照之前的方法繼續(xù)測試 3 節(jié)點集群:

在集群場景下,仍然是 CPU 利用率先達到瓶頸。同樣在 CPU 滿載情況下,GuanceDB 此時的寫入 QPS 約為 860w,xxDB 約為 45w。

對比之前 GuanceDB 和 xxDB 的單機寫入性能測試,理想情況下 N 個節(jié)點的集群版的寫入性能應該是單機版的 N 倍,呈線性增長,實測 3 節(jié)點集群符合性能預期。

查詢測試

查詢測試將混合單機 InfluxDB、集群版 GuanceDB、集群版 xxDB 一起進行。集群一般可以將數據和查詢分攤并可以在節(jié)點之間并行查詢,理論上這個測試方式對 InfluxDB 不太公平,但條件受限,暫且這么設計。

我們虛擬 688 個 node-exporter 實例,生成大約 100w 個活躍時間線,5s 抓取一次,時序點寫入 QPS 20w。在持續(xù)寫入 24 小時后,我們再測試一些常見語句的查詢性能和對比存儲空間占用。

GuanceDB 同時支持 DQL 和 PromQL 兩種查詢語法。DQL 是觀測云自研的多模數據查詢語言,同時支持指標、日志、對象等多種類型負載數據的查詢和分析,語法表達非常簡潔。語法設計上跟 SQL 接近,但更加適應時序分析場景,學習曲線平滑。

這里我們一共對比了四種查詢語法在相同語義的 1h、8h、24h 不同時間范圍下的響應時間:

查詢 1 響應時間:

注:圖示中 0ms 表示響應時間不到 1ms。

查詢 2 響應時間:

查詢 3 響應時間:

注:圖示中 -1ms 表示請求響應時間超過了 60s 不計數。

空間占用對比

在上述的查詢測試構造的寫入壓力(活躍時間線 100w,時序點寫入 QPS 20w)下,運行 24 小時后,我們對比存儲空間占用。

總結

經過數輪的寫入和查詢性能測試,相信各位對 GuanceDB 的綜合性能表現(xiàn)已經有了比較清晰的認識了。GuanceDB 對比 InfluxDB 寫入性能提升 3 倍,存儲空間占用減少 68%,查詢性能提升 30 倍以上。 GuanceDB 相比 xxDB 提升則更明顯,背后的原因是 xxDB 雖然明面上是支持了 Schemaless 數據的寫入,但是對 Schemaless 的場景明顯優(yōu)化不足,所以表現(xiàn)欠佳。

GuanceDB 的優(yōu)異性能來自于我們構建的高效的火山模型查詢引擎、SIMD 指令加速、對 Schemaless 數據的最優(yōu)先支持等,也因為我們站在了 VictoriaMetrics 的肩膀上。非常感謝 VictoriaMetrics 開源社區(qū)對我們的支持,我們將持續(xù)貢獻回報社區(qū),共同促進可觀測領域技術的發(fā)展與進步。

我們在 5 月中下旬也將發(fā)布 GuanceDB 的單機版本,歡迎大家到時關注和測試。 如有同學對 GuanceDB 感興趣,或有任何疑問,可以隨時站內和我聯(lián)絡,或者在觀測云社群里溝通。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關文章

熱門排行

信息推薦