當前位置:首頁 >  科技 >  IT業(yè)界 >  正文

「群體智能」劍指AGI革命!國產(chǎn)架構(gòu)挑戰(zhàn)Transformer霸權(quán),首款非Attention模型更新

 2024-09-30 11:47  來源: 互聯(lián)網(wǎng)   我來投稿 撤稿糾錯

  域名預(yù)訂/競價,好“米”不錯過

通往AGI終極之路,是什么?

這世界,沒有一個完整的定義,也沒有具體的答案。

此前曝出的OpenAI秘密路線圖,將通往AGI目標劃分五級。

而「草莓」o1模型出世,代表著第二級已經(jīng)實現(xiàn)。

李飛飛估值10億美金獨角獸World Labs,將「空間智能」看作通向AGI重要的橋梁。

他們計劃打造出「大世界模型」(LWM),通過對世界建模,讓AI在3D世界中去感知、去生成、去互動。

國內(nèi)一家AI初創(chuàng)團隊,對此也有不同的看法。

他們認為,「群體智能」是邁向更廣泛的通用人工智能的路線。未來,世界每個設(shè)備都擁有自己的智能,能夠以類人的方式交互。

不過,實現(xiàn)這一想法的前提是,我們需要一個創(chuàng)新的算法架構(gòu)。

值得一提的是,這個團隊卻做了一件「反直覺」的事——首創(chuàng)非Transformer獨特路線。

基于全新架構(gòu),他們打造的Yan系列模型已經(jīng)植入到樹莓派、機器人、AIPC等終端設(shè)備中。

恰在RockAI開放日上,多模態(tài)模型Yan1.3全面升級,直接擊敗開源Llama 3,「真端側(cè)」最強大腦誕生了!

模型端到端,秒級實時人機交互

全新迭代后的Yan1.3,支持從文本、音頻、視覺輸入,并以語音、文本方式輸出。

它模擬了人類復(fù)雜的感知系統(tǒng),既能聽懂自然語言、看懂視覺信息,也能通過語音方式表達。

可以說,它是全球首個人機交互領(lǐng)域中,端到端的多模態(tài)大模型。

憑借出色的架構(gòu)設(shè)計,Yan1.3模型在兼容性和性能,取得了最優(yōu)的表現(xiàn),從低算力到高算力全面覆蓋。

在不同終端上的體驗,多模態(tài)Yan1.3更是實現(xiàn)了秒級實時響應(yīng)。

在CPU上秒級響應(yīng),GPU上更是有百毫秒級的人機交互,體驗非常絲滑趕超云端的大模型。

不如一起來看看,Yan1.3在手機、PC、機器人、無人機上,如何無損部署的。

低配1500元可跑,真·AI手機來了

在人手一臺手機的時代,搭載一個本地的大模型,那才是真·AI手機。

現(xiàn)場演示中,離線部署Yan1.3 3B參數(shù)的手機,直接斷網(wǎng),上演了不用聯(lián)網(wǎng)也能體驗LLM的精彩一幕。

告訴語音助手RockAI自己的需求——介紹一下上海。它在遵循指令后,瞬間給出了關(guān)于上海的一些簡單概要。

它還可以跨應(yīng)用,完成系統(tǒng)的調(diào)用。

讓它打開相冊,并找出一張夕陽的照片。

RockAI不僅準確找到了夕陽照片,還給出了小紅書的風格描述,這種費腦的事兒,它全部代勞了。

更驚艷的是,告訴它今天是小明生日,并幫自己為其送上祝福。

RockAI直接進入短信界面,自動生成編輯了一段內(nèi)容,你所做的就是點擊「發(fā)送」了。

可見,一個30億參數(shù)離線模型,同時具備了以文找圖、以圖生文,Agent、語音助手等能力,強大到足以讓人震撼。

在同等的手機硬件配置上,Yan1.3模型相比Transfomer有30%的性能超越。

或許有的人會問,能夠運行這樣的模型,一定需要高配的手機。

RockAI聯(lián)創(chuàng)鄒佳思稱,從低端¥1500到中端¥3000配置,而且還只是8G運行內(nèi)存,都可以無損適配。

懂人話高效助手,AI PC更便利

不僅如此,在個人PC上,業(yè)界早就掀起了AI PC的概念。

但若是沒有在設(shè)備端完全部署模型,AI能力的使用會嚴重受限。而且,AI PC根本無法普及到大多數(shù)用戶。

接下來,這段現(xiàn)場演示中,直接為AI PC掐斷了網(wǎng)線。

上傳一段主持人的天氣預(yù)報音頻,然后AI智能助手將其實時轉(zhuǎn)錄成了文字。

轉(zhuǎn)寫完成后,還能幫你立即總結(jié)出一份摘要。

另外,每個人辦公時均會遇到一個困擾,「xxx圖片」誰知道保存到了哪個文件夾。

現(xiàn)在,這個煩惱完全可以打消了。

只要一句話,AI智能助手就能直接幫你找到想要的那個圖片。

而且,它還可以支持以圖搜圖的方式。

這些功能的實現(xiàn),僅需要一臺配備英特爾Core i5主機即可流暢運行。

四步成詩,輕松拿捏新中式

Yan1.3還在人形機器人上,實現(xiàn)了離線運行。

我們都知道,構(gòu)成機器人最核心的三要素,便是大腦、小腦、本體。

如果讓一個冰冷的機械,同時具備「看聽說想動」的能力,并基于已有的知識完成決策,最后指揮肢體進行行動。

這樣的前提,一定是離不開大模型、分層控制算法的植入。

當你呼叫小蘇小蘇,你看見了什么?

憑借強大的多模態(tài)認知能力,它準確地描述出了當前周圍的環(huán)境和布局。

另外,Yan1.3「大腦」控制的軀體,還能完成各類高效復(fù)雜的任務(wù)。

現(xiàn)場,讓小蘇吟詩一首——關(guān)于冬天的七言絕句,并在4步之內(nèi)完成。

只見小蘇一邊走,一邊完成了絕美的創(chuàng)作。

寒風凌冽雪紛飛,萬物蕭疏鳥自棲。唯有梅花凌雪放,清香四溢滿庭芳。

有趣的是,當小蘇吟詩后離拍攝者太近,讓它讓一讓。

只見,憨態(tài)可掬的它向另一邊慢慢踱步。

其實,在今年世界人工智能大會上,搭載Yan模型,基于樹莓派打造的胖虎機器人就亮相了。

它在現(xiàn)場七步成詩、詠春拳法等各種精彩演示,吸引了一大波圍觀歪果仁觀看。

城市巡檢拍照,無人機全包了

而在無人機方面,搭載Yan1.3后的用法就更多了。

它不僅可以治安巡邏、交通巡檢,異常監(jiān)控,還可以當那個為你抓拍美照的「男友」。

當然了,智能巡檢這類任務(wù),對于一個城市管理來說非常重要。

植入離線模型的無人機,可以從多方位感知環(huán)境,快速識別圖像信息,自適應(yīng)調(diào)整飛行高度。

它可以搭配手機,完成「端」和「端」的互聯(lián)操作。

交通巡檢過程中,它可以智能識別違規(guī)車輛,并將信息傳送到手機上。

當你自拍找不到滿意角度,直呼「飛龍,給我拍一張氛圍感滿滿的照片」。它一躍升天,拍下了多種角度的照片,通過對照片的多維度評分,還貼心地幫你選好了最美瞬間。

可見,全新升級的Yan1.3已經(jīng)賦予了每個端側(cè)設(shè)備「靈魂」。

它不僅在無人機、機器人、PC、手機等終端設(shè)備中,絲滑適配,而且模型智能能力迎來了全新升級。

無需閹割模型,讓端側(cè)設(shè)備具備了完整性、可持續(xù)性。

這種類人的輸入輸出過程,不僅大幅地提升人機交互的質(zhì)量,還為未來教育、醫(yī)療等行業(yè)開辟了更廣闊的應(yīng)用場景。

當一個最強端側(cè)完成進化,那么一群最強端側(cè)協(xié)作,能夠?qū)崿F(xiàn)什么?

簡言之,群體智能。

群體智能,怎么實現(xiàn)?

其實,群體智能,很早就存在于生物界。

蟻群會一起搬運食物、搭建蟻巢;蜜蜂會各司其職,協(xié)作維護蜂巢;狼群結(jié)隊,捕獲獵物等等。

這些都是,生物界群體智能的體現(xiàn)。

縱觀生物界的發(fā)展,能夠得出一個基本規(guī)律——個體智能化程度越高,群體智能的表現(xiàn)力越強。

就像人類一樣,我們的群體智能,所表達出的文明程度遠遠高于蟻群、蜂群、狼群.......

從中汲取靈感,人工智能也會有「群體智能」。

單元大模型的智慧,能夠反哺整個大模型群體,進而讓AI群體更聰明、更智能。

或許你會說,其實國外很多研究,早就通過多個智能體協(xié)作,實現(xiàn)了高性能群體智能。

其實不然,它們之間有著本質(zhì)的區(qū)別。

智能體本身,存在一個很大缺陷——不具備自主學習能力。

而且,智能體之間的協(xié)作,也是一個很小范圍的協(xié)作。

究其根本,是因為基于Transformer架構(gòu)大模型搭建的智能體,實現(xiàn)自我訓練非常困難。

群體智能中最核心的要素便是個體,也就是「端」。

而基于Transformer架構(gòu)的模型,若想在端上運行、并自主學習,根本不可行。

因為模型通常會被量化裁剪壓縮之后,才會植入端設(shè)備。而被閹割之后的模型,就不再具備學習能力。

那該如何破解?

為了實現(xiàn)群體智能,RockAI經(jīng)過多年的技術(shù)沉淀,獨創(chuàng)了不同于Transformer的MCSD架構(gòu),并且提出了「類腦激活」機制。

這條路線,與OpenAI、World Labs有著本質(zhì)區(qū)別,是國產(chǎn)公司在AGI前沿另辟蹊徑的嘗試。

Transformer不是唯一路徑

當前的現(xiàn)狀是,大模型領(lǐng)域早已呈現(xiàn)出Transformer「一家獨大」的格局。

用AI大神Karpathy的話說:最先進的GenAI模型,要么是自回歸訓練,要么是擴散訓練,底層的神經(jīng)網(wǎng)絡(luò)通常都是Transformer架構(gòu)。

雖然Transformer自身有許多優(yōu)秀的特質(zhì),但不可否認,這仍不是一個百分百完美的架構(gòu)。

甚至,有很多業(yè)界AI大佬已經(jīng)看到了其中的巨大弊端。

首當其沖的,就是被詬病已久的幻覺問題。

Yann LeCun認為,LLM的幻覺根源于當前所使用的自回歸Transformer架構(gòu)。

「幻覺問題是自回歸LLM架構(gòu)特有的」「自回歸LLM會產(chǎn)生幻覺…幻覺是自回歸生成的本質(zhì)缺陷」

這種架構(gòu)上的本質(zhì)缺陷,注定了有一天我們要走出Transformer生態(tài),就像曾經(jīng)90年代末走出SVM生態(tài)、3年前走出BERT生態(tài)一樣。

就連提出Transformer核心架構(gòu)作者之一Aidan Gomez認為,這世間需要比Transformer更好的東西,希望將其取代,把我們帶向更高的性能高地。

「現(xiàn)在使用了太多計算資源,做了很多浪費的計算」

部署方面,基于Transformer架構(gòu)模型對終端設(shè)備運行內(nèi)存、儲存空間提出了更高要求,同時壓縮后的模型,在實際推理上大打折扣。

能源方面,今年3月,馬斯克表示,2025年AI將耗盡電力和變壓器,用他的話來說,「很諷刺的是,我們需要transformers(變壓器)來運行transformers(模型)?!?/p>

很明顯,無論是從減少幻覺、推動技術(shù)進步的角度,還是從環(huán)境保護、促進GenAI發(fā)展可持續(xù)的角度,我們都急需一種能夠跳出Transformer「思維圈」的新架構(gòu)誕生。

國內(nèi)首個非Attention機制

RockAI首次提出的MCSD(Multi-Channel Slope and Decay)架構(gòu)就是跳出Transformer路線的一次絕佳嘗試。

而MCSD最大的特點,便是替換了Transformer架構(gòu)中的注意力機制。

隨著序列長度的增加,Transformer架構(gòu)對計算資源的消耗呈現(xiàn)O(N^2)增長,相比之下,MCSD實現(xiàn)了線性擴展,而且推理速度更快,將空間和時間復(fù)雜度分別降低到了O(1)和O(N)。

直白講,MCSD全新架構(gòu)能夠?qū)⑺懔ο慕抵粮汀?/p>

也就意味著,基于此架構(gòu)打造的模型,在端側(cè)設(shè)備上運行有了新的可能。

論文地址:https://arxiv.org/abs/2406.12230

MCSD的具體架構(gòu)如圖1所示,由嵌入層和N個相同的組合層堆疊而成,每個組合層中由兩個殘差連接分別封裝MCSD塊和門控MLP塊,兩者都前置一個RMS歸一化模塊,并使用GeLU作為激活函數(shù)。

MCSD塊的內(nèi)部結(jié)構(gòu)如圖1(右)所示,集成了slope部分和decay部分,分別通過不同的預(yù)定義矩陣捕捉局部和全局特征。

兩個部分均采用了雙分支設(shè)計,一個分支負責進行線性投影,另一個通過聚合前面token的上下文信息來提取多通道歷史特征,之后兩個分支進行擾動(perturbation)操作。

slope和decay部分主要存在兩方面的區(qū)別,一是預(yù)定義權(quán)重不同,因此在提取歷史信息時對上下文的感知能力不同,前者更注重短程上下文,后者則更關(guān)注全局上下文。

將slope和decay兩部分的輸出進行拼接后就得到了MCSD塊的輸出,這兩者的組合使得模型既能關(guān)注到距離更近的歷史信息,也不會丟失更遠的長距離上下文,從而同時增強了局部和全局的特征提取。

此外,論文還提出通過遞歸形式簡化推理計算,將推理所用的空間和時間復(fù)雜度分別降低至O(1)和O(N),顯著壓縮了所需算力。

實驗數(shù)據(jù)顯示,隨著序列逐步變長,KV緩存的存在讓Transformer推理的內(nèi)存成本呈線性增加;相比之下,即使是8k的長序列,MCSD消耗的GPU內(nèi)存也幾乎不變。

給定序列長度后,隨著批大小的增加,Transformer的延遲也會顯著增加,而MCSD的延遲則依舊十分穩(wěn)定。

此外,有相同批大小或序列長度時,MCSD的吞吐量性能也遠遠好于Transformer架構(gòu)。

除了大大節(jié)約吞吐量、延遲、內(nèi)存消耗等方面的成本,MCSD還在基準測試上有更佳的性能。

類腦激活機制

基于MCSD架構(gòu),RockAI實現(xiàn)了能在「端側(cè)」運行群體智能單元大模型。

但這并不代表著,能夠在更多端側(cè)上實現(xiàn)最優(yōu)性能。

因此,RockAI還在Yan系列模型中采用了獨創(chuàng)的「類腦激活」機制,實現(xiàn)基于仿生神經(jīng)元驅(qū)動的選擇算法。

在主流的神經(jīng)網(wǎng)絡(luò)中,每次推理都需要激活全部神經(jīng)元,這會導致大量算力浪費。

而人腦的運作并非如此。

不同的大腦區(qū)域負責不同的認知功能,因此不同的執(zhí)行不同的任務(wù)只會造成一部分腦神經(jīng)元的激活,而且激活的區(qū)域也各有不同。

比如開車時,視覺皮層會更加活躍;而寫作時,掌管記憶或邏輯的腦區(qū)激活程度更高。這也許就是為什么,相比調(diào)動每個處理單元的計算機,大腦明顯更加「節(jié)能」。

因此,模擬大腦中的神經(jīng)元激活模式,可以讓神經(jīng)網(wǎng)絡(luò)更加高效地處理復(fù)雜數(shù)據(jù)和任務(wù),從而顯著提升計算效率和精度。

通過以上兩種方式結(jié)合,一是用MCSD替換注意力機制,而是通過選擇性神經(jīng)元計算,帶了極致低算力消耗。

正是基于如此強大的「雙機制」,RockAI在今年1月發(fā)布了國內(nèi)首個非Transformer架構(gòu)的大模型Yan 1.0。

隨之7月,發(fā)布了國內(nèi)首個終端多模態(tài)大模型Yan 1.2。

經(jīng)過幾次迭代,目前已經(jīng)升級為端到端的多模態(tài)Yan 1.3,代表著邁向群體智能的新起點,是群體智能的單元大模型。

厚積薄發(fā),終極目標邁向群體智能

要實現(xiàn)AI的群體智能,并不是一件簡單的事,提出MCSD架構(gòu)和「類腦激活」機制,只是一個開始。

為了達到群體智能,RockAI將這個大目標分解為4個階段的子目標,一步步穩(wěn)扎穩(wěn)打。

目前,他們已經(jīng)跨越了第一級,正在完成第二級的躍升。

創(chuàng)新基礎(chǔ)架構(gòu),是要跳出Transformer的既定路線,旨在實現(xiàn)模型性能效率的跨越式發(fā)展;

多元化硬件生態(tài),則是模型部署落地的根本保證,只有適配多終端、多廠商、多型號的硬件,形成成熟的生態(tài),才能為群體智能創(chuàng)造實現(xiàn)條件。

隨著Yan 1.3模型的發(fā)布和廣泛部署適配,意味著前兩個階段的目標已經(jīng)基本實現(xiàn)。

從Yan 1.0到Y(jié)an 1.3,不僅覆蓋了更多設(shè)備,還實現(xiàn)了端到端的多模態(tài)支持。

輸入輸出形式包含了文本、語音、視覺在內(nèi)的多模態(tài),不但大大方便人機交互,還能讓多個AI模型之間更靈活地交流同步。

下一步,RockAI將繼續(xù)發(fā)布Yan2.0,繼續(xù)強化模型的自主學習、自我優(yōu)化能力,讓AI更好地和真實的物理世界交互。

在Yan系列智慧生態(tài)的基礎(chǔ)上,持續(xù)的群體進化將成為可能,最終繪制出「群體智能」的未來藍圖。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關(guān)文章

熱門排行

信息推薦