1. 創(chuàng)業(yè)頭條
  2. 前沿領域
  3. 大數(shù)據(jù)
  4. 正文

金融行業(yè)數(shù)據(jù)復雜 成本高 難獲取 看路孚特如何打破困局

 2019-11-27 12:44  來源:互聯(lián)網(wǎng)  我來投稿 撤稿糾錯

  域名預訂/競價,好“米”不錯過

嘉賓丨路孚特 RDP 研發(fā)總監(jiān)董玉棟,路孚特高級研發(fā)經(jīng)理趙儀,路孚特企業(yè)架構(gòu)總監(jiān)陳強

2018 年,湯森路透金融與風險業(yè)務部門獨立成為 Refinitiv(路孚特)。路孚特在湯森路透金融數(shù)據(jù)和市場知識積累之上,利用領先的技術(shù)、信息和分析方法繼續(xù)為行業(yè)者提供著服務。如今路孚特推出金融數(shù)據(jù)平臺。(Refinitiv Elektron Data Platform,簡稱 RDP),進一步發(fā)揮其在行業(yè)積累的優(yōu)勢。InfoQ 記者專訪路孚特 RDP 研發(fā)總監(jiān)董玉棟、路孚特高級研發(fā)經(jīng)理趙儀、路孚特企業(yè)架構(gòu)總監(jiān)陳強,揭秘 RDP 的設計理念及技術(shù)亮點。

從傳統(tǒng)的金融數(shù)據(jù)管理到現(xiàn)代金融數(shù)據(jù)治理,金融行業(yè)迎來巨大的轉(zhuǎn)變。由于數(shù)據(jù)量增長形成的倒逼,以及要順應監(jiān)管機構(gòu)和用戶的需求,越來越多的金融從業(yè)機構(gòu)開始意識到“數(shù)據(jù)驅(qū)動”的重要性,但全面釋放數(shù)據(jù)價值的過程并非一帆風順。

金融行業(yè)在數(shù)據(jù)治理中面臨哪些痛點?

路孚特企業(yè)架構(gòu)總監(jiān)陳強表示,在金融行業(yè)里,數(shù)據(jù)來源非常復雜。面對不同的數(shù)據(jù)提供廠商、數(shù)據(jù)類型以及數(shù)據(jù)提供方式,企業(yè)要獲取所需的金融數(shù)據(jù)并作處理分析,成本并不低。而一些小型金融機構(gòu)即便獲取到數(shù)據(jù),也沒有足夠的技術(shù)能力去處理。

從另一個角度來看,路孚特高級研發(fā)經(jīng)理趙儀解釋,數(shù)據(jù)通常受到兩類人的關注:一類是數(shù)據(jù)提供商,另一類是數(shù)據(jù)消費者。對于數(shù)據(jù)提供商而言,數(shù)據(jù)的權(quán)限管理、再分發(fā)權(quán)限的機制、數(shù)據(jù)合規(guī)等始終是痛點;對于數(shù)據(jù)消費者而言,如何解決數(shù)據(jù)來源不同、格式不統(tǒng)一、不一致等問題迫在眉睫。

總體來看,金融從業(yè)機構(gòu)面臨的主要痛點如下:

數(shù)據(jù)來源復雜,且在不同部門、不同業(yè)務系統(tǒng)以及不同領域的機構(gòu)間,數(shù)據(jù)缺乏流動性和共享性。

數(shù)據(jù)標準化程度低。來自不同業(yè)務、不同時期的數(shù)據(jù),在用途、結(jié)構(gòu)、價值和質(zhì)量水平等方面差異較大,導致數(shù)據(jù)的提取、整理、分析和使用的難度加大。

成本問題。隨著用戶量和數(shù)據(jù)量的增加,訪問和使用數(shù)據(jù)的成本也在大幅提升。

目前金融機構(gòu)大部分可利用的數(shù)據(jù)依然是傳統(tǒng)業(yè)務產(chǎn)生的數(shù)據(jù),而外部數(shù)據(jù)源拓展不足,缺乏更高層面的統(tǒng)籌協(xié)調(diào)來支持全面的數(shù)據(jù)分析和使用。

基于以上原因,路孚特推出了自主研發(fā)的金融數(shù)據(jù)平臺 RDP。該平臺應用統(tǒng)一的存儲層能力匯集來自全球的海量金融數(shù)據(jù),通過完整的清洗、分析和增值處理流程后,集中分發(fā)給用戶。

RDP 研發(fā)總監(jiān)董玉棟提到,路孚特已經(jīng)與全球的證券交易所、期貨交易所等機構(gòu)建立了合作關系,從數(shù)據(jù)生產(chǎn)端獲取到一手數(shù)據(jù),面向全球發(fā)布到數(shù)據(jù)消費的一端。簡單來講,就是“收之全球,發(fā)之全球”。

可以說,RDP 相當于一個全球金融行業(yè)數(shù)據(jù)的統(tǒng)籌協(xié)調(diào)中心,其目的是方便金融從業(yè)者獲取更全面的行業(yè)數(shù)據(jù),同時盡可能減少用戶成本,增加數(shù)據(jù)價值。

RDP 如何幫助金融從業(yè)者以較低的成本訪問和使用數(shù)據(jù)?

據(jù)了解,企業(yè)在數(shù)據(jù)傳輸過程中,除了從上游不同業(yè)務數(shù)據(jù)庫中實時、定時傳輸?shù)较掠蜗到y(tǒng)之外,還需要從外部合作商、供應商中獲取業(yè)務數(shù)據(jù)。RDP 具有大數(shù)據(jù)級別的行業(yè)數(shù)據(jù),那么,它是如何幫助金融從業(yè)者以較低的成本便捷地訪問和使用這些數(shù)據(jù)?

RDP 的解決思路是:將其核心數(shù)據(jù)存儲在 AWS 上,為用戶提供基于元數(shù)據(jù)驅(qū)動的統(tǒng)一的 API 接口。RDP 的數(shù)據(jù)和 API 接口可以通過所有主流的公有云產(chǎn)品、私有云設施,以及企業(yè)自有數(shù)據(jù)中心訪問。

從用戶角度來看,基于元數(shù)據(jù)的訪問大大簡化了客戶對數(shù)據(jù)的使用。但是,數(shù)據(jù)訪問越便捷意味著開發(fā)難度越高。董玉棟也提到,統(tǒng)一的 API 背后,需要理解客戶不同類型的請求,并能夠高效執(zhí)行,但云原生的 API 網(wǎng)關并不能完全實現(xiàn)這種特性。

API 網(wǎng)關處于客戶端與各個微服務之間,擔任著反向代理的角色,負責將不同的請求路由到相對應的微服務中去。API 網(wǎng)關可以解決客戶端需求和每個微服務暴露的細粒度 API 不匹配、部分服務使用的協(xié)議非 Web 友好協(xié)議等問題。

為了提升 API 性能,滿足用戶不同類型的訪問請求,路孚特自主研發(fā)了 API 網(wǎng)關以及用戶數(shù)據(jù)權(quán)限管理系統(tǒng)。AWS 中的 API 網(wǎng)關會注冊其所有的 RDP API,包括內(nèi)部消費的 API 和面向客戶的 API。用戶請求到達以后,API 網(wǎng)關會自動驗證用戶的權(quán)限,并保證后續(xù)的合法數(shù)據(jù)請求快速遞交給相應的服務,而超出服務范圍的請求會自動拒絕。董玉棟表示,所有在 RDP 上的產(chǎn)品設計都是從 API 定義開始,這有助于實現(xiàn)把客戶需求放到第一位的目標,并最大化各種 API 及服務的重用性,避免重復實現(xiàn)相同的功能。

在數(shù)據(jù)分發(fā)上,RDP 統(tǒng)一了流式處理、批量處理和基于請求的數(shù)據(jù)提供方式。對于流式數(shù)據(jù)的訪問,董玉棟提到,這類數(shù)據(jù)即時性很重要,RDP 通過在中間做多層緩存將數(shù)據(jù)持續(xù)且高速地推送給客戶。

批量數(shù)據(jù)請求分為“定制批量請求”和“隨機批量請求”兩種情況。對于定制批量請求,RDP 按照約定時間定時打包推送給用戶;對于隨機批量請求,則采用異步打包,然后將數(shù)據(jù)提取位置發(fā)送給用戶的方式處理。

對于面向搜索的數(shù)據(jù),董玉棟介紹:“這類訪問基本都是同步請求,實時訪問我們的數(shù)據(jù)庫返回給客戶。有時候用戶基于搜索的數(shù)據(jù)量特別大,RDP 系統(tǒng)會進行職能預測,自動將這一類請求轉(zhuǎn)變成隨機批量數(shù)據(jù)請求來處理。”

那么,如何應對諸如跨洋實時交易這類對時效性要求非常高的超低時延數(shù)據(jù)訪問?

趙儀解釋:“跨洋實時交易本身存在地理位置上的時延,再加上系統(tǒng)帶來的時延,通過云服務訪問無法滿足超低時延的需求。即便是快到 70ms 的時延,對于實時交易來講,也是一種延遲。”路孚特的做法是在全球部署數(shù)據(jù)中心,以此提高時效性。此外,目前公有云還無法提供具有超高時效性的數(shù)據(jù),因此,比較合適的做法是將數(shù)據(jù)通過專線直接部署到用戶所在地。

元數(shù)據(jù)驅(qū)動的價值與挑戰(zhàn)

從簡單的庫表到整個數(shù)據(jù)平臺,再到服務管理,元數(shù)據(jù)管理的范圍正在擴大,不斷突破傳統(tǒng)管理的范疇,并在大數(shù)據(jù)治理中發(fā)揮著關鍵作用。而 RDP 的整個系統(tǒng)便是由元數(shù)據(jù)驅(qū)動的。

簡單來講,元數(shù)據(jù)是對數(shù)據(jù)本身進行描述的數(shù)據(jù),如描述數(shù)據(jù)的格式、映射關系、語義、權(quán)限等。元數(shù)據(jù)管理具有以下三方面的價值:

可以為數(shù)據(jù)管理提供統(tǒng)一的視圖,方便數(shù)據(jù)交互共享;

實現(xiàn)數(shù)據(jù)自動關聯(lián)分析,為數(shù)據(jù)分析、問題定位等提供支撐;

便于建立數(shù)據(jù)標準,統(tǒng)一交換、存儲、應用口徑,減少共享壁壘,降低應用出錯幾率,提升質(zhì)量。

在大數(shù)據(jù)時代,數(shù)據(jù)的容量、多樣性等在持續(xù)擴充,元數(shù)據(jù)管理也面臨著挑戰(zhàn)。目前,元數(shù)據(jù)仍然沒有統(tǒng)一的標準,如何用一套統(tǒng)一的語義去描述種類繁多的金融數(shù)據(jù)間的特征,并且真正和數(shù)據(jù)管理系統(tǒng) / 微服務之間緊密集成而不是割裂的存在,是行業(yè)中普遍存在的問題。

企業(yè)首先需要集中化管理元數(shù)據(jù),由一個專門且人數(shù)較少的架構(gòu)師團隊定義元數(shù)據(jù),并進行統(tǒng)一管理。其次,研發(fā)團隊要讓軟件能夠支持元數(shù)據(jù)體系,并與之融為一體,而非割裂存在。最后,不僅內(nèi)部的系統(tǒng)要實現(xiàn)元數(shù)據(jù)驅(qū)動,系統(tǒng)間的相互訪問以及對外開放也需要遵循同一套體系。

隨著元數(shù)據(jù)驅(qū)動的數(shù)據(jù)管理、API 訪問和增值業(yè)務能力的增加,元數(shù)據(jù)實質(zhì)上已經(jīng)成為了更高級別抽象的代碼,這就帶來了一個難題:如何進行數(shù)據(jù)的生命周期管理。確切地說,這類復雜的問題沒有單一的解決方案,必須從系統(tǒng)級架構(gòu)、可重用的代碼和服務、DevOps 和自動化測試、代碼安全掃描等多個方面來解決問題。

對此,陳強分享了以下幾點經(jīng)驗:

(1)如何在權(quán)限管理系統(tǒng)中定義“誰”可以“管理”哪些“元數(shù)據(jù)”?可以把整個系統(tǒng)中的“誰”、“管理(行為)”、“元數(shù)據(jù)”這些業(yè)務概念也都元數(shù)據(jù)化,由統(tǒng)一的身份及權(quán)限系統(tǒng)通過共享服務進行統(tǒng)一管理。

(2)對于可以在線修改并實時生效的元數(shù)據(jù),尤其是決定數(shù)據(jù)存儲和表現(xiàn)形式的元數(shù)據(jù),如何保證由其驅(qū)動的數(shù)據(jù)系統(tǒng)的健壯性、穩(wěn)定性和可控性?首先,在線元數(shù)據(jù)的修改和發(fā)布是獨立的異步流程,可由相應的權(quán)限進行控制;其次,對元數(shù)據(jù)的前后變化進行快照,并以版本號作為快照的唯一標識符,在發(fā)布和回滾元數(shù)據(jù)版本時可以明確地識別具體的快照內(nèi)容;最后,發(fā)布和回滾的過程中,可以根據(jù)業(yè)務特點,根據(jù)需要輔以各種在線的自動化功能測試和發(fā)布策略。

(3)某些業(yè)務及技術(shù)實現(xiàn)的復雜度導致一些元數(shù)據(jù)的修改無法真正進行熱加載和實時生效,或者實現(xiàn)熱加載 / 部署的代價過高,但仍然需要業(yè)務管理專家而非研發(fā)人員控制和實施元數(shù)據(jù)修改的部署。RDP 在應用中會盡量利用公有云的彈性,對版本化后的元數(shù)據(jù)進行修改,并進行 CI/CD 持續(xù)集成和自動化測試,同時輔助以藍 / 綠部署策略。這樣,元數(shù)據(jù)的版本控制與代碼的版本控制流程及部署策略就可以非常接近。不同的是,元數(shù)據(jù)的修改是通過易于使用的控制界面,主要由業(yè)務專家進行管理。在這背后,路孚特所有由業(yè)務專家使用的功能都會經(jīng)過充分的測試,確保界面上可以操作的功能是健壯有效的。

隨著數(shù)據(jù)量的增長,RDP 如何平衡性能與成本?

隨著大數(shù)據(jù)的發(fā)展,數(shù)據(jù)平臺難免要面對數(shù)據(jù)或作業(yè)爆發(fā)式增長所帶來的挑戰(zhàn)。RDP 的用戶量和數(shù)據(jù)量每年都會大幅增長,相應的成本投資增長不容小覷。在這種數(shù)據(jù)量和計算量不斷增長的情況下,如何去平衡性能和成本?趙儀表示,這一問題的核心在于每個用戶計算成本的控制,即如何保證每個用戶計算成本不隨用戶數(shù)量和數(shù)據(jù)量的增加而顯著增加。RDP 在控制成本方面可借鑒的方法有:

(1)盡可能地在用戶間共享可以共享的計算,只需支付對用戶的分發(fā)成本;

(2)控制熱點數(shù)據(jù)的規(guī)模,在 API 級區(qū)分熱點訪問和冷數(shù)據(jù)訪問;

(3)基于微服務的管理,方便用戶管理自己的數(shù)據(jù)需求;

(4)用戶輸入不同的數(shù)據(jù)源不盲目整合,避免在一個對象模型下產(chǎn)生巨量的數(shù)據(jù)集,從而降低用戶增加對單個用戶計算復雜度的影響;

(5)數(shù)據(jù)壓縮 / 訪問本地化 / 算法優(yōu)化等傳統(tǒng)方法。

對于大數(shù)據(jù)平臺而言,區(qū)分冷熱數(shù)據(jù)并安排不同的存儲方式是非常重要的一項工作,對存儲成本和計算性能至關重要。對于冷數(shù)據(jù),由于調(diào)用頻率相對較低,可以通過冷壓縮,將數(shù)據(jù)壓縮到最小,再存儲起來的方式節(jié)省存儲成本;對于熱數(shù)據(jù),則需要增加 Cache 或者采用一些優(yōu)化策略,讓用戶能快速調(diào)用,從而提升計算性能。

數(shù)據(jù)本身并不產(chǎn)生價值,基于數(shù)據(jù)的計算才能帶來價值。為了保證上層計算的有效性,通常將數(shù)據(jù)放在距離計算最近的地方,否則會帶來傳輸?shù)难舆t。數(shù)據(jù)的統(tǒng)一存儲并非是將數(shù)據(jù)都放在同一個地方,這里的統(tǒng)一存儲其實是一個邏輯概念。不同的數(shù)據(jù)應該放在不同的存儲中,才能使數(shù)據(jù)上層的計算最有效,并將數(shù)據(jù)延遲降到最低。RDP 會針對不同的訪問請求提供不同的數(shù)據(jù)訪問緩存,并輔以共享計算的方式對數(shù)據(jù)傳輸進行優(yōu)化。

路孚特金融數(shù)據(jù)平臺的未來發(fā)展趨勢

科技帶給金融行業(yè)的影響顯而易見,在金融機構(gòu)進行各種互聯(lián)網(wǎng)創(chuàng)新的同時,也將金融科技的重要性提升到了戰(zhàn)略高度,通過 AI、大數(shù)據(jù)、云計算、區(qū)塊鏈等新興技術(shù)不斷提升金融效率和競爭力,建立新的金融生態(tài)。

而大數(shù)據(jù)技術(shù)從最初的“新奇”發(fā)展到如今的“普惠”階段,用戶的關注點也發(fā)生了很大的改變。早期用戶比較關注“靈活”、“快”,現(xiàn)在更關心的是企業(yè)級能力,同時降低成本也變得越來越重要。目前,企業(yè)級數(shù)據(jù)平臺普遍存在的困難是高速增長的數(shù)據(jù)和計算量與成本之間的矛盾。如何用更低的成本獲取更多的信息,不僅是金融從業(yè)機構(gòu)的迫切需求,也是數(shù)據(jù)平臺的核心競爭點。

談及 RDP 未來的發(fā)展重點,趙儀表示:“RDP 的目標主要集中在加強數(shù)據(jù)的統(tǒng)一存儲和分發(fā)能力,降低客戶獲取數(shù)據(jù)的復雜度和成本。未來將用更低的成本擴大數(shù)據(jù)覆蓋范圍。”與此同時,RDP 會繼續(xù)獲取更多的用戶需求,并把這些需求統(tǒng)一到 RDP 數(shù)據(jù)分發(fā)機制里,更好地為客戶提供存儲和分發(fā)的能力。

用科技普惠金融,這是路孚特技術(shù)團隊研發(fā) RDP 的初心。未來,隨著 5G、AI 等新興技術(shù)的發(fā)展,路孚特也將打造更加智能高效的平臺,給用戶提供更好的體驗。

除了在技術(shù)上不斷精益求精,路孚特也在積極推動金融科技的生態(tài)發(fā)展。11 月 29 日,由路孚特主辦,以“引領科技變革,洞見金融未來”為主題的 ReFinTech 金融科技峰會將在北京舉行。本次大會邀請了金融界知名專家和金融科技企業(yè)技術(shù)專家,深度探討行業(yè)發(fā)展思路和技術(shù)演進趨勢,分享最前沿創(chuàng)新實踐,共同打造“創(chuàng)新、聚力、發(fā)展、共贏”的金融科技生態(tài)平臺。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關文章