當(dāng)前位置:首頁 >  IDC >  云計(jì)算 >  正文

基調(diào)聽云:應(yīng)云而生,可觀測(cè)性的用武之地才剛剛開始

 2022-12-02 15:56  來源: 互聯(lián)網(wǎng)   我來投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過

2021 年下旬,有關(guān)可觀測(cè)性的研討如雨后春筍般層出不窮,在解讀 CNCF 云原生計(jì)算基金會(huì) 2021 年度云原生調(diào)查時(shí),CNCF 執(zhí)行董事 Priyanka Sharma 曾表示:“隨著容器基礎(chǔ)設(shè)施的上層和底層不斷成熟,2022年將成為邊緣、可觀測(cè)性和安全等新興云原生領(lǐng)域的標(biāo)志性一年。”

當(dāng)前傳統(tǒng)監(jiān)控體系所面臨的諸多局限真的能夠通過可觀測(cè)性解決嗎?企業(yè)又該如何構(gòu)建適配自身的可觀測(cè)性體系?

可觀測(cè)性“火熱出圈”

“可觀測(cè)性”并不是一個(gè)新詞,其概念最早由現(xiàn)代控制理論之父 Rudolf Kalman 提出:“如果對(duì)于狀態(tài)和控制向量的任何可能演變,僅使用輸出的信息就可以估計(jì)當(dāng)前狀態(tài),則稱系統(tǒng)是可觀測(cè)的。”

那為什么近年來可觀測(cè)性的熱度不斷飆升,一度火熱出圈呢?

主要原因在于云原生時(shí)代下,系統(tǒng)復(fù)雜性的逐步增強(qiáng)。數(shù)字化浪潮推動(dòng),企業(yè) IT 業(yè)務(wù)開始向云上遷移,為提高遷移效率、運(yùn)行效率以及服務(wù)的靈活性,企業(yè)大多會(huì)采用多云/混合云架構(gòu),這將大大增加 IT 模型的復(fù)雜性。

過去簡(jiǎn)單、變更不頻繁的單體式架構(gòu)可以使用監(jiān)控查看系統(tǒng)運(yùn)行狀態(tài),但隨著分布式架構(gòu)、云原生架構(gòu)的變遷,越來越多的新訴求開始逐步顯現(xiàn)。

用戶體驗(yàn)和應(yīng)用比以往任何時(shí)候都重要, 企業(yè)依賴于體系化的 IT 系統(tǒng)來實(shí)現(xiàn)增長(zhǎng)。

數(shù)字化轉(zhuǎn)型過程中,應(yīng)用的數(shù)量、數(shù)據(jù)的體量、變化的頻率和增加的速度,都已經(jīng)遠(yuǎn)遠(yuǎn)超越了僅通過固定儀表盤就可以管理復(fù)雜 IT 系統(tǒng)的能力。

多云/混合云的部署模式都是容器化且動(dòng)態(tài)變化的, 容器創(chuàng)建的速度和規(guī)模及其生命周期,已超出數(shù)據(jù)中心時(shí)代管理邊界。

多種多樣的開發(fā)語言、運(yùn)行時(shí)以及當(dāng)前采用的支持軟件和數(shù)據(jù)庫等,都已經(jīng)超越了IT從業(yè)者的溝通界面,單獨(dú)的溝通形式難以滿足開發(fā)者之間的溝通需求。

企業(yè)資源是有限的, 不斷增加的系統(tǒng)復(fù)雜性、故障排查難度正在竊取企業(yè)的創(chuàng)新時(shí)間,消耗 IT 從業(yè)者的時(shí)間。

點(diǎn)亮監(jiān)控變革信號(hào)燈

企業(yè)上云或服務(wù)改造的過程中,通常會(huì)引入大量新興工具,服務(wù)業(yè)務(wù)爆炸性增長(zhǎng)。云、微服務(wù)及容器的使用,將會(huì)對(duì) IT 運(yùn)維及數(shù)字化轉(zhuǎn)型帶來巨大挑戰(zhàn)。顯然,開源集成或傳統(tǒng)監(jiān)控工具的管理方式已不合時(shí)宜,難以助力企業(yè)的數(shù)字化轉(zhuǎn)型。

每位用戶每一秒的體驗(yàn)都非常重要,APM采樣方法無法做到全面、全量監(jiān)控。

微服務(wù)快速更新的需求會(huì)使得監(jiān)控的對(duì)象和指標(biāo)量呈指數(shù)級(jí)增長(zhǎng), 傳統(tǒng)方式難以實(shí)現(xiàn)海量數(shù)據(jù)的采集和分析。

相比傳統(tǒng)監(jiān)控,可觀測(cè)性的側(cè)重點(diǎn)不同。 傳統(tǒng)監(jiān)控是對(duì)被監(jiān)控設(shè)施所進(jìn)行的明確的、可預(yù)測(cè)的審視和度量,是為了提高系統(tǒng)可觀測(cè)性而使用的手段,注重現(xiàn)實(shí)狀態(tài)的變化。而可觀測(cè)性是一種方法,通過檢查系統(tǒng)的外部輸出衡量系統(tǒng)內(nèi)部狀態(tài)的能力,也是系統(tǒng)的核心能力。

因此,Gartner認(rèn)證的應(yīng)用性能管理(APM)解決方案提供商基調(diào)聽云認(rèn)為,可觀測(cè)性是 IT 建設(shè)過程中的必要手段。 在開發(fā)與維護(hù)的生命周期中,都應(yīng)具備可觀測(cè)性能力,動(dòng)態(tài)高效地定位并解決突發(fā)性問題,在系統(tǒng)不可用時(shí),快速了解問題現(xiàn)狀及原因,有效預(yù)防故障發(fā)生,而不是簡(jiǎn)單地降級(jí)限流。

可觀測(cè)性構(gòu)建的正確打開方式

既然可觀測(cè)性相比傳統(tǒng)監(jiān)控體系具有諸多優(yōu)勢(shì)和價(jià)值,那么該如何構(gòu)建呢?首先需要了解一個(gè)優(yōu)秀的可觀測(cè)性平臺(tái)應(yīng)具備什么樣的能力:

全面、全量的數(shù)據(jù)采集能力,擴(kuò)大數(shù)據(jù)采集的廣度、深度及數(shù)量;

通過自動(dòng)化技術(shù)實(shí)現(xiàn)數(shù)據(jù)采集的可伸縮和完整性;

高基分析的能力;

超大規(guī)模實(shí)時(shí)計(jì)算能力;

多源集成能力;

基于AI和確定性因果關(guān)系的根因分析能力;

業(yè)務(wù)實(shí)時(shí)洞察能力。

基調(diào)聽云智能業(yè)務(wù)可觀測(cè)性平臺(tái)

不同企業(yè)訴求不同,又該如何快速構(gòu)建適合自身業(yè)務(wù)系統(tǒng)的可觀測(cè)性呢? 以基調(diào)聽云可觀測(cè)性平臺(tái)的發(fā)展為例,構(gòu)建完備的可觀測(cè)性平臺(tái)可以分三步走。

融匯:以用戶體驗(yàn)和業(yè)務(wù)為中心,夯實(shí)數(shù)據(jù)基礎(chǔ)

全面豐富的數(shù)據(jù)是一切分析工具及決策的來源,盡可能收集基礎(chǔ)數(shù)據(jù)將有利于后續(xù)分析,否則當(dāng)系統(tǒng)故障需要排查分析時(shí),將難以有效評(píng)估當(dāng)時(shí)的狀態(tài)。

為完善技術(shù)??捎^測(cè)性數(shù)據(jù)的采集能力,基調(diào)聽云以Tracing為核心,全面采集APP、Web、小程序及系統(tǒng)應(yīng)用的指標(biāo)數(shù)據(jù),以業(yè)務(wù)承載關(guān)系采集主機(jī)、云原生組件、數(shù)據(jù)庫、信息隊(duì)列指標(biāo)數(shù)據(jù)。

融合撥測(cè)平臺(tái)(STM)主動(dòng)采集可觀測(cè)性數(shù)據(jù);

OneSDK / OneJS 采集集DEM終端的性能,會(huì)話和行為可觀測(cè)數(shù)據(jù);

一體化 Agent 采集后端應(yīng)用性能、基礎(chǔ)組件及日志數(shù)據(jù),覆蓋從業(yè)務(wù)層、應(yīng)用層到云原生基礎(chǔ)資源層全量可觀測(cè)數(shù)據(jù)采集;

支持 OpenTelemetry,第三方 APM 數(shù)據(jù)接入,指標(biāo)體系基于 OpenMetrics 實(shí)現(xiàn)廣泛第三方可觀測(cè)性指標(biāo)及元數(shù)據(jù)的接入。

融通:注重?cái)?shù)據(jù)的治理與應(yīng)用,數(shù)據(jù)關(guān)聯(lián)豐富化

眾所周知,傳統(tǒng)意義上可觀測(cè)性有三大支柱:Metrics 、Logging、Tracing,但割裂、無關(guān)聯(lián)的數(shù)據(jù)會(huì)對(duì)數(shù)據(jù)檢索帶來嚴(yán)峻的挑戰(zhàn),更難進(jìn)一步定位根因。

基調(diào)聽云將用戶體驗(yàn)、Metrics 、Logging、Tracing為可觀測(cè)性的四大支柱,重點(diǎn)關(guān)注用戶體驗(yàn)數(shù)據(jù),以Tracing為核心,連通Mertrics、Logs 數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)間的關(guān)聯(lián)分析、統(tǒng)一建模與轉(zhuǎn)化關(guān)聯(lián),做到問題的精準(zhǔn)定位與數(shù)據(jù)的精準(zhǔn)檢索,有效解決傳統(tǒng)監(jiān)控的數(shù)據(jù)孤島問題。

以 Tracing 為核心融合可觀測(cè)性三大支柱

此外,基調(diào)聽云通過實(shí)時(shí)的業(yè)務(wù)洞察、業(yè)務(wù)影響及流程分析,實(shí)現(xiàn)性能數(shù)據(jù)與客戶業(yè)務(wù)數(shù)據(jù)的有機(jī)結(jié)合, 讓 IT 和業(yè)務(wù)在同一套平臺(tái)下協(xié)作,這也是基調(diào)聽云可觀測(cè)性平臺(tái)的核心競(jìng)爭(zhēng)力之一。

如上圖所示,通過指標(biāo)與 Tracing 的結(jié)合可以對(duì) VIP 用戶進(jìn)行識(shí)別,設(shè)置 VIP 用戶的業(yè)務(wù)性能閾值,最終實(shí)現(xiàn) VIP 用戶的告警和體驗(yàn)保障。

融智:多元數(shù)據(jù)整合,增強(qiáng)數(shù)據(jù)應(yīng)用能力及可觀測(cè)性

智能化技術(shù)在可觀測(cè)性數(shù)據(jù)分析中的作用不可或缺,可觀測(cè)性的數(shù)據(jù)只有被關(guān)聯(lián)起來一起分析時(shí)才能發(fā)揮出它們最大的價(jià)值,但可觀測(cè)性的數(shù)據(jù)是海量的,只靠人力分析、運(yùn)維很難全面考慮,而人工智能算法是當(dāng)前處理海量數(shù)據(jù)最有希望的方法。

此外,智能化技術(shù)在云原生系統(tǒng)運(yùn)維中還將作為可觀測(cè)性的重要補(bǔ)充,發(fā)揮不可替代的作用,通過引入 AI 算法模型和機(jī)器學(xué)習(xí),整合原有數(shù)據(jù),可以進(jìn)一步增強(qiáng)可觀測(cè)能力,如使用 AI 進(jìn)行容量預(yù)測(cè),提前發(fā)現(xiàn)系統(tǒng)性能容量瓶頸,實(shí)現(xiàn)故障發(fā)現(xiàn)與預(yù)防。

智能故障管理

可觀測(cè)性體系的實(shí)踐案例

案例一:常見場(chǎng)景之客戶投訴

任何行業(yè)都有可能遇到客戶投訴的場(chǎng)景,面對(duì)客戶投訴,在使用可觀測(cè)性平臺(tái)的情況下,只需知道一個(gè)用戶標(biāo)識(shí)即可輕松查詢相關(guān)信息。

相較傳統(tǒng)監(jiān)控將信息傳給運(yùn)維部門,再由研發(fā)人員檢索日志的方式,使用可觀測(cè)性平臺(tái)能夠大大提升檢索效率,減少時(shí)間成本。此外,除了快速響應(yīng)客戶投訴解決問題外,還能夠通過對(duì)投訴時(shí)間段內(nèi)所觀測(cè)信息的分析復(fù)盤,挖掘深層次的原因并掌握故障的影響范圍。

案例二:某大型銀行可觀測(cè)性實(shí)踐

隨著應(yīng)用系統(tǒng)架構(gòu)由傳統(tǒng)向新的架構(gòu)平臺(tái)轉(zhuǎn)換,硬件架構(gòu)由獨(dú)立服務(wù)器向虛擬資源池、容器環(huán)境轉(zhuǎn)換,某大型銀行面臨監(jiān)控?cái)?shù)據(jù)割裂,缺乏端到端應(yīng)用性能觀測(cè)手段、用戶體驗(yàn)觀測(cè)手段亟待建設(shè)等諸多業(yè)務(wù)挑戰(zhàn)。

如上圖所示,融合基調(diào)聽云SDK、SkyWalking和 OpenTelemetry 的調(diào)用連數(shù)據(jù),通過抽取鏈路指標(biāo)、關(guān)聯(lián)日志,實(shí)現(xiàn)可觀測(cè)數(shù)據(jù)的關(guān)聯(lián)融合。通過UserId及 TraceId的關(guān)聯(lián),實(shí)現(xiàn)端到端的交易全鏈路問題追溯;通過基于真實(shí)用戶的用戶旅途,還原用戶會(huì)話行為;通過異常檢測(cè)、相關(guān)性分析和根因分析,實(shí)現(xiàn)IT系統(tǒng)問題的根因定位。

案例三:某運(yùn)營商可觀測(cè)性建設(shè)

面對(duì)運(yùn)營商缺少統(tǒng)一的DevOps監(jiān)控工具、缺乏全鏈路調(diào)用追蹤和故障異??焖俜治鍪侄?、難以保障重大體育賽事直播等種種業(yè)務(wù)挑戰(zhàn),基調(diào)聽云從容迎戰(zhàn)。

通過基調(diào)聽云智能可觀測(cè)性平臺(tái),將聽云APM監(jiān)控、Zabbix基礎(chǔ)監(jiān)控、日志易日志監(jiān)控有機(jī)集合,實(shí)現(xiàn)一體化可觀測(cè)平臺(tái)。

最終該運(yùn)營商從容地支撐了高達(dá)70萬tps的業(yè)務(wù)峰值,在國家級(jí)奧運(yùn)盛事的直播期間,經(jīng)第三方中立機(jī)構(gòu)評(píng)測(cè),用戶體驗(yàn)性能得分第一。

案例四:某頭部城商行可觀測(cè)性一體化平臺(tái)建設(shè)

某銀行隨著信息科技系統(tǒng)架構(gòu)日趨復(fù)雜、 客戶人數(shù)急劇增長(zhǎng),對(duì)需求快速交付,系統(tǒng)的穩(wěn)定性、高效性、服務(wù)水平等方面都提出了更高的要求。

針對(duì)該銀行對(duì)實(shí)現(xiàn)管理對(duì)象統(tǒng)一調(diào)度、數(shù)據(jù)統(tǒng)一加工、工具統(tǒng)一治理,以及統(tǒng)一采控、統(tǒng)一數(shù)據(jù)、工具打通,優(yōu)先解決故障告警分析的需求,基調(diào)聽云從多個(gè)方面助力改造:

通過可觀測(cè)性一體化平臺(tái)對(duì)接已有各專業(yè)運(yùn)維工具,形成一體化的智能運(yùn)維平臺(tái),提升系統(tǒng)運(yùn)行狀態(tài)感知能力,問題分析定位,應(yīng)急處置能力,并提供統(tǒng)一運(yùn)維門口,提升運(yùn)維效率和業(yè)務(wù)連續(xù)性服務(wù)水平;

通過可觀測(cè)性一體化平臺(tái)構(gòu)建智能運(yùn)維大數(shù)據(jù)平臺(tái),提供運(yùn)維管理數(shù)據(jù)加工,指標(biāo)體系計(jì)算能力,性能容量分析能力,業(yè)務(wù)系統(tǒng)健康度分析能力,智能告警分析能力;

通過可觀測(cè)性一體化平臺(tái)建設(shè)以用戶旅程為抓手的業(yè)務(wù)體驗(yàn)端到端可觀測(cè)體系,為提升用戶體驗(yàn)、系統(tǒng)健壯性提供支撐。

可觀測(cè)性的用武之地才剛剛開始

龐大的數(shù)據(jù)量,系統(tǒng)架構(gòu)的演化,讓容器、數(shù)據(jù)之間的關(guān)系變得錯(cuò)綜復(fù)雜,故障排查棘手,此時(shí)打造具備可觀測(cè)性的系統(tǒng)成為應(yīng)對(duì)之策。

可觀測(cè)性是云原生時(shí)代下能夠聯(lián)動(dòng) IT 與業(yè)務(wù)的能力,它本質(zhì)上符合云原生環(huán)境以業(yè)務(wù)應(yīng)用為核心的趨勢(shì)。從監(jiān)控到可觀測(cè)性的發(fā)展,拓寬了傳統(tǒng)監(jiān)控的能力邊界,打破了傳統(tǒng)被動(dòng)監(jiān)控方式,形成了主動(dòng)、全局式的統(tǒng)一智能觀測(cè)能力,更有利地幫助我們掌握系統(tǒng)健康程度。

未來,隨著云原生的快速發(fā)展,可觀測(cè)性的發(fā)展?jié)摿薮?,其用武之地才剛剛開始。

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)標(biāo)簽
云計(jì)算
云服務(wù)

相關(guān)文章

  • 強(qiáng)強(qiáng)聯(lián)合!百望云入駐微軟實(shí)驗(yàn)室,揭開數(shù)智發(fā)展新篇章!

    OpenAI是什么,隨著ChatGPT的爆火,相信大家都并不陌生了。而微軟也第一時(shí)間推出了AzureOpenAI加速計(jì)劃,希望憑借OpenAI的卓越能力,為企業(yè)賦能,幫助越來越多的企業(yè)將AI大模型的基礎(chǔ)能力,與企業(yè)場(chǎng)景相結(jié)合,開拓新的商業(yè)范式,引領(lǐng)行業(yè)變革。近日,以“智領(lǐng)新變共創(chuàng)未來”為主題的“微軟

    標(biāo)簽:
    云服務(wù)
  • 新成果、新服務(wù)、新生態(tài),HPE混合云領(lǐng)導(dǎo)者地位再提升!

    HPE擴(kuò)大混合云和私有云產(chǎn)品的覆蓋范圍、靈活選項(xiàng)和創(chuàng)新功能,領(lǐng)導(dǎo)者地位再提升!HPEDiscover科技盛會(huì)上,HPE宣布了HPEGreenLake邊緣到云平臺(tái)、混合云服務(wù)、私有云產(chǎn)品組合的創(chuàng)新成果,以及合作伙伴生態(tài)系統(tǒng)的最新進(jìn)展:·HPE完成對(duì)OpsRamp公司的收購;相關(guān)解決方案現(xiàn)已作為HPEG

    標(biāo)簽:
    云服務(wù)
  • 權(quán)威發(fā)布!白山云連續(xù)入選IDC邊緣云報(bào)告

    近日,國際權(quán)威研究機(jī)構(gòu)IDC發(fā)布《中國邊緣云市場(chǎng)跟蹤研究,2022H2》報(bào)告。作為創(chuàng)新的全球邊緣云服務(wù)提供商,白山云得到IDC的持續(xù)關(guān)注與認(rèn)可,憑借在邊緣云領(lǐng)域的技術(shù)突破、產(chǎn)品迭代以及場(chǎng)景實(shí)踐,再度入選報(bào)告,與行業(yè)伙伴一同撐起邊緣云市場(chǎng)的巨大價(jià)值空間。IDC指出,在服務(wù)商與客戶需求的共同推動(dòng)下,邊緣

    標(biāo)簽:
    云服務(wù)
  • 帶來高?;旌显平ㄔO(shè)方案,青云科技滿足教育、教學(xué)、教管等場(chǎng)景需求

    隨著教育信息化2.0進(jìn)程加快,教育部等六部門提出“推進(jìn)教育新型基礎(chǔ)設(shè)施建設(shè),構(gòu)建高質(zhì)量教育支撐體系”,建設(shè)智慧校園成為各大高校重點(diǎn)布局方向。但因?yàn)閭鹘y(tǒng)豎井式建設(shè)模式,導(dǎo)致高校信息系統(tǒng)龐大,現(xiàn)有信息化程度較低,IT資源碎片化,資源統(tǒng)一管控難度大等一系列問題,使得智慧校園建設(shè)步履維艱,各大高校亟需找到突

    標(biāo)簽:
    云服務(wù)
  • 多功能升級(jí)、超值優(yōu)惠!KubeSphere Cloud加速企業(yè)云原生應(yīng)用落地

    5月份,青云科技(qingcloud.com,股票代碼:688316)推出的KubeSphereCloud云原生應(yīng)用服務(wù)平臺(tái)實(shí)現(xiàn)了眾多功能升級(jí),并為用戶提供眾多優(yōu)惠活動(dòng),加速企業(yè)落地云原生。詳情如下:功能升級(jí)集群巡檢服務(wù)支持配置定時(shí)巡檢策略隨著企業(yè)核心業(yè)務(wù)環(huán)境安全事故的頻發(fā),周期性完成集群健康巡檢任

    標(biāo)簽:
    云服務(wù)

熱門排行

信息推薦