當(dāng)前位置:首頁(yè) >  科技 >  IT業(yè)界 >  正文

與其造神,不如依靠群體的力量:這家公司走出了一條不同于OpenAI的AGI路線

 2024-09-30 11:40  來(lái)源: 互聯(lián)網(wǎng)   我來(lái)投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過(guò)

看過(guò)劇版《三體》的讀者或許都記得一個(gè)名場(chǎng)面:來(lái)自三體的智子封鎖了人類科技,還向地球人發(fā)出了「你們是蟲子」的宣告。但沒(méi)有超能力的普通人史強(qiáng)卻在蝗群漫天飛舞的麥田中喊出:「把我們?nèi)祟惪闯墒窍x子的三體人,他們似乎忘了一個(gè)事實(shí),那就是蟲子從來(lái)就沒(méi)有被真正地戰(zhàn)勝過(guò)」。

三體人看到的是單個(gè)蟲子脆弱的一面 —— 你可以輕松踩死一只螞蟻,打死一只蝗蟲、蜜蜂。但他們沒(méi)有看到的是,當(dāng)這些蟲子集結(jié)在一起時(shí),它們可以涌現(xiàn)出遠(yuǎn)超個(gè)體簡(jiǎn)單相加的力量。

科學(xué)家們很早就發(fā)現(xiàn)了這種力量,并將其命名為「群體智能」(Swarm Intelligence)。這種智能不是由某個(gè)中央大腦控制,而是通過(guò)個(gè)體間的簡(jiǎn)單互動(dòng)和信息交換自然形成的。它是一種集體智慧的體現(xiàn),是自然界中一種奇妙而高效的協(xié)作方式。

其實(shí),從宏觀上說(shuō),人類社會(huì)的不斷發(fā)展和演化也是一種群體智能現(xiàn)象,絕大多數(shù)文明成果都是人類個(gè)體在長(zhǎng)期群體化、社會(huì)化的生產(chǎn)生活中逐漸演化形成的產(chǎn)物。

那么,人工智能的發(fā)展能否借鑒這種模式?答案自然是「能」。但長(zhǎng)期以來(lái),由于機(jī)器的個(gè)體智能化程度較低等原因,「群體智能」遲遲難以涌現(xiàn)。

生成式 AI 的發(fā)展或許可以推動(dòng)這些問(wèn)題的解決,也讓「群體智能」獲得了新一輪的關(guān)注。

「這波生成式 AI 相當(dāng)于把個(gè)體的智能化水平提升上去了。而個(gè)體智能的提升,意味著群體的智能有望實(shí)現(xiàn)指數(shù)級(jí)增長(zhǎng)。」在近期的一次訪談中,RockAI CEO 劉凡平向機(jī)器之心表達(dá)了這樣的觀點(diǎn)。

RockAI 是一家成立于 2023 年 6 月的 AI 初創(chuàng),他們自研了國(guó)內(nèi)首個(gè)非 Attention 機(jī)制的 Yan 架構(gòu)通用大模型,并將這個(gè)大模型部署在了手機(jī)、PC、無(wú)人機(jī)、機(jī)器人等多種端側(cè)設(shè)備上,還嘗試讓自己的大模型在這些設(shè)備上實(shí)現(xiàn)「自主學(xué)習(xí)」能力。

而這一切均服務(wù)于一個(gè)宏大的目標(biāo) —— 讓每一臺(tái)設(shè)備都擁有自己的智能,而且是可以像人類一樣實(shí)時(shí)學(xué)習(xí)、個(gè)性化自主進(jìn)化的系統(tǒng)。劉凡平認(rèn)為,當(dāng)這些擁有不同能力、不同個(gè)性的智能單元得以協(xié)同,即可完成數(shù)據(jù)共享、任務(wù)分配和策略協(xié)調(diào),涌現(xiàn)出更為宏大、多元的群體智能,最終實(shí)現(xiàn)個(gè)性化與群體智能的和諧統(tǒng)一,開(kāi)啟人與機(jī)器的智能新時(shí)代。

那這一切怎么去實(shí)現(xiàn)呢?在訪談中,劉凡平和鄒佳思(RockAI 聯(lián)合創(chuàng)始人)向機(jī)器之心分享了他們的路線圖和最新進(jìn)展。

一條不同于 OpenAI 的 AGI 路線

前面提到,「群體智能」的研究進(jìn)展受限于單個(gè)個(gè)體的智能化程度,所以研究者們首先要解決的問(wèn)題就是讓單個(gè)個(gè)體變得足夠聰明。

要說(shuō)「聰明」,OpenAI 的模型可以說(shuō)是出類拔萃。但從目前的情況來(lái)看,他們似乎更側(cè)重于訓(xùn)練出擁有超級(jí)智能的單個(gè)大模型。而且,這條路線走起來(lái)并不容易,因?yàn)樗叨纫蕾嚭A康臄?shù)據(jù)和計(jì)算資源,這在能源、數(shù)據(jù)和成本上都帶來(lái)了可持續(xù)性的問(wèn)題。

此外,通過(guò)一個(gè)超級(jí)智能模型來(lái)處理所有任務(wù)是一種高度中心化的模式,這在實(shí)踐中容易出現(xiàn)智能增長(zhǎng)的瓶頸,因?yàn)閱我荒P腿狈`活的適應(yīng)能力和協(xié)作效應(yīng),導(dǎo)致其智能提升速度受到限制。

那么,OpenAI 未來(lái)有沒(méi)有可能也走群體智能的路線?這個(gè)問(wèn)題目前還沒(méi)有明確答案。但可以看到的一點(diǎn)是,以該公司和其他大部分公司當(dāng)前采用的 Transformer 架構(gòu)去構(gòu)建群體智能的單個(gè)個(gè)體可能會(huì)遇到一些障礙。

首先是高算力需求的障礙。以 Attention 機(jī)制為基礎(chǔ)的 Transformer 架構(gòu)對(duì)計(jì)算資源的需求非常高,其計(jì)算復(fù)雜度為 O (n^2)(n 為序列長(zhǎng)度)。這意味著隨著輸入序列的增長(zhǎng),計(jì)算成本急劇增加。在構(gòu)建群體智能時(shí),我們需要多個(gè)單元大模型協(xié)同工作,而這些單元大模型往往部署在低算力的設(shè)備上(如無(wú)人機(jī)、手機(jī)、機(jī)器人等)。如果不經(jīng)過(guò)量化、裁剪等操作,Transformer 架構(gòu)的模型很難在低算力設(shè)備上直接部署。所以我們看到,很多公司都是通過(guò)這些操作讓模型成功在端側(cè)跑起來(lái)。

但對(duì)于群體智能來(lái)說(shuō),光讓模型跑起來(lái)還不夠,還要讓它們具備自主學(xué)習(xí)的能力。在劉凡平看來(lái),這一點(diǎn)至關(guān)重要。

他解釋說(shuō),在一個(gè)沒(méi)有自主學(xué)習(xí)的群體中,最聰明的個(gè)體會(huì)主導(dǎo)其他智能體的決策,其他智能體只能跟隨它的指引。這種情況下,群體智能的上限就是最聰明個(gè)體的水平,無(wú)法超越。但通過(guò)自主學(xué)習(xí),每個(gè)智能體都可以獨(dú)立提升自身的智能水平,并逐漸接近最聰明的個(gè)體。而且,自主學(xué)習(xí)促進(jìn)了知識(shí)共享,類似于人類的知識(shí)傳承。這樣,群體中的所有智能體都會(huì)變得更聰明,群體整體的智能水平有望實(shí)現(xiàn)指數(shù)級(jí)增長(zhǎng),遠(yuǎn)遠(yuǎn)超出簡(jiǎn)單的個(gè)體累加。

而量化、裁剪等操作最致命的問(wèn)題,就是破壞了模型的這種自主學(xué)習(xí)能力?!府?dāng)一個(gè)模型被壓縮、量化、裁剪之后,這個(gè)模型就不再具備再學(xué)習(xí)的能力了,因?yàn)樗臋?quán)重已經(jīng)發(fā)生了變化,這種變化基本是不可逆的。這就像我們把一個(gè)螺絲釘釘入墻中,如果在敲入的過(guò)程中螺絲釘受到損壞,那么想要把它取出來(lái)重新使用就變得很困難,讓它變得更鋒利就變得不可能。」劉凡平解釋說(shuō)。

講到這里,實(shí)現(xiàn)群體智能的路線其實(shí)就已經(jīng)非常清晰了:

首先,你要在架構(gòu)層面做出改變,研發(fā)出一種可以克服 Transformer 缺陷的新架構(gòu)。

然后,你要將基于這個(gè)架構(gòu)的模型部署到各種端側(cè)設(shè)備上,讓模型和這些設(shè)備高度適配。

接下來(lái),更重要的一點(diǎn)是,這個(gè)架構(gòu)的模型要能夠在各種端側(cè)設(shè)備上自主學(xué)習(xí),不斷進(jìn)化。

最后,這些模型與端側(cè)設(shè)備結(jié)合成的智能體要能夠自主協(xié)作,共同完成任務(wù)。

這其中的每個(gè)階段都不簡(jiǎn)單:

在第一階段,新架構(gòu)不止要具備低算力、部署到端側(cè)原生無(wú)損的特點(diǎn),還要具備可以媲美 Transformer 架構(gòu)的性能,保證單個(gè)個(gè)體足夠聰明且可以自主學(xué)習(xí)。

在第二階段,「大腦和身體」的高度適配涉及感知層面和數(shù)據(jù)處理的不同模態(tài),每種設(shè)備有著不同的需求,這增加了模型和設(shè)備適配的復(fù)雜性。

在第三階段,讓模型部署之后還可以學(xué)習(xí)就意味著要挑戰(zhàn)現(xiàn)有的訓(xùn)練、推理完全分離的機(jī)制,讓模型參數(shù)在端側(cè)也可以調(diào)整,且調(diào)整足夠快、代價(jià)足夠小。這就涉及到對(duì)傳統(tǒng)反向傳播機(jī)制的挑戰(zhàn),需要的創(chuàng)新非常底層。

在第四階段,主要挑戰(zhàn)是如何實(shí)現(xiàn)智能體之間的有效協(xié)作。這個(gè)過(guò)程要求智能體自主發(fā)現(xiàn)并形成完成任務(wù)的最佳方案,而不是依賴于人為設(shè)定或程序預(yù)設(shè)的方案。智能體需要根據(jù)自己的智能水平來(lái)決定協(xié)作的方式。

這些難點(diǎn)就決定了,RockAI 必須走一條不同于 OpenAI 的路線,挑戰(zhàn)一些傳統(tǒng)的已經(jīng)成為「共識(shí)」的方法。

劉凡平提到,在前兩個(gè)階段,他們已經(jīng)做出了一些成果,針對(duì)第三、四個(gè)階段也有了一些實(shí)驗(yàn)和構(gòu)想。

群體智能的單元大模型 ——Yan 1.3

第一階段的標(biāo)志性進(jìn)展是一個(gè)采用 Yan 架構(gòu)(而非 Transformer 架構(gòu)或其變體)的大模型。這個(gè)模型的 1.0 版本發(fā)布于今年的 1 月份,為非 Attention 機(jī)制的通用自然語(yǔ)言大模型。據(jù)了解,該模型有相較于同等參數(shù) Transformer 的 7 倍訓(xùn)練效率、5 倍推理吞吐和 3 倍記憶能力。而且,這一模型 100% 支持私有化部署應(yīng)用,不經(jīng)裁剪和壓縮即可在主流消費(fèi)級(jí) CPU 等端側(cè)設(shè)備上無(wú)損運(yùn)行。

經(jīng)過(guò)半年多的攻關(guān),這一模型剛剛迎來(lái)了最新版本 ——Yan 1.3。

Yan 1.3 是一個(gè) 3B 參數(shù)的多模態(tài)模型,能夠處理文本、語(yǔ)音、視覺(jué)等多種輸入,并輸出文本和語(yǔ)音,實(shí)現(xiàn)了多模態(tài)的模擬人類交互。

盡管參數(shù)量較小,但其效果已超越 Llama 3 8B 的模型。而且,它所用的訓(xùn)練語(yǔ)料比 Llama 3 要少,訓(xùn)練、推理算力也比 Llama 3 低很多。這在眾多非 Transformer 架構(gòu)的模型中是一個(gè)非常領(lǐng)先的成績(jī),其訓(xùn)練、推理的低成本也讓它比其他架構(gòu)更加貼近工業(yè)化和商業(yè)化。

這些出色的性能得益于高效的架構(gòu)設(shè)計(jì)和算法創(chuàng)新。

在架構(gòu)層面,RockAI 用一個(gè)名叫 MCSD(multi-channel slope and decay)的模塊替換了 Transformer 中的 Attention 機(jī)制,同時(shí)保留 Attention 機(jī)制中 token 之間的關(guān)聯(lián)性。在信息傳遞過(guò)程中,MCSD 強(qiáng)調(diào)了有效信息的傳遞,確保只有最重要的信息被傳遞給后續(xù)步驟,而且是以 O (n) 的復(fù)雜度往下傳,這樣可以提高整體效率。在驗(yàn)證特征有效性和 token 之間的關(guān)聯(lián)性方面,MCSD 表現(xiàn)優(yōu)秀。

在算法層面,RockAI 提出了一種類腦激活機(jī)制。這是一種分區(qū)激活的機(jī)制,就像人開(kāi)車和寫字會(huì)分別激活腦部的視覺(jué)區(qū)域和閱讀區(qū)域一樣,Yan 1.3 會(huì)根據(jù)學(xué)習(xí)的類型和知識(shí)范圍來(lái)自適應(yīng)調(diào)整部分神經(jīng)元,而不是讓全量的參數(shù)參與訓(xùn)練。推理時(shí)也是如此。具體有哪些神經(jīng)元來(lái)參與運(yùn)算是由仿生神經(jīng)元驅(qū)動(dòng)的算法來(lái)決定的。

在今年的 GTC 大會(huì)上,Transformer 論文作者之一 Illia Polosukhin 提到,像 2+2 這樣的簡(jiǎn)單問(wèn)題可能會(huì)使用大模型的萬(wàn)億參數(shù)資源。他認(rèn)為自適應(yīng)計(jì)算是接下來(lái)必須出現(xiàn)的事情之一,我們需要知道在特定問(wèn)題上應(yīng)該花費(fèi)多少計(jì)算資源。RcokAI 的類腦激活機(jī)制是自適應(yīng)計(jì)算的一種實(shí)現(xiàn)思路。

這或許聽(tīng)起來(lái)和 MoE 有點(diǎn)像。但劉凡平解釋說(shuō),類腦激活機(jī)制和 MoE 有著本質(zhì)的區(qū)別。MoE 是通過(guò)「專家」投票來(lái)決定任務(wù)分配,每個(gè)「專家」的網(wǎng)絡(luò)結(jié)構(gòu)都是固定的,其結(jié)果是可預(yù)測(cè)的。而類腦激活機(jī)制沒(méi)有「專家」,也沒(méi)有「專家」投票的過(guò)程,取而代之的是神經(jīng)元的選擇過(guò)程。其中的每個(gè)神經(jīng)元都是有價(jià)值的,選擇的過(guò)程也是一個(gè)自學(xué)習(xí)的過(guò)程。

這種分區(qū)激活機(jī)制在 MCSD 的基礎(chǔ)上進(jìn)一步降低了 Yan 架構(gòu)模型的訓(xùn)練、推理計(jì)算復(fù)雜度和計(jì)算量。

「這也符合人類大腦的運(yùn)行方式。人腦的功耗只有二十幾瓦,如果全部的 860 億個(gè)神經(jīng)元每次都參與運(yùn)算,大腦產(chǎn)生的生物電信號(hào)肯定是不夠用的。」劉凡平說(shuō)道。目前,他們的類腦激活機(jī)制已經(jīng)得到了腦科學(xué)團(tuán)隊(duì)的理論支持和實(shí)際論證,也申請(qǐng)到了相關(guān)專利。

以端側(cè)設(shè)備為載體,邁向群體智能

在 Yan 1.3 的發(fā)布現(xiàn)場(chǎng),我們看到了該模型在 PC、手機(jī)、機(jī)器人、無(wú)人機(jī)等端側(cè)設(shè)備的部署情況。鑒于 Yan 1.2 發(fā)布時(shí)甚至能在樹(shù)莓派上運(yùn)行,這樣的端側(cè)部署進(jìn)展并不令我們感到意外。

那么,為什么一定要把模型部署在端側(cè)呢?云端的模型不行嗎?鄒佳思提到,這是因?yàn)槟P鸵鷻C(jī)器本體做高度適配。以機(jī)器人為例,設(shè)備的很多參數(shù)是難以與云端大模型融合。端側(cè)大模型更容易讓機(jī)器人肢體協(xié)調(diào)、大小腦協(xié)同工作。

而且我們知道,這些端側(cè)智能體的潛力才剛剛顯露。畢竟,以上創(chuàng)新的目標(biāo)不只是讓模型能夠在端側(cè)跑起來(lái)(當(dāng)前很多模型都能做到這一點(diǎn)),而是使其具備自主學(xué)習(xí)的能力,作為「群體智能的單元大模型」持續(xù)進(jìn)化。無(wú)論是 Yan 架構(gòu)的「0 壓縮、0 裁剪」無(wú)損部署,還是分區(qū)激活的高效計(jì)算,都是服務(wù)于這一目標(biāo)。這是 RockAI 和其他專注于端側(cè) AI 的公司的一個(gè)本質(zhì)區(qū)別。

「如果我們拿一個(gè) 10 歲的孩子和一個(gè) 30 歲的博士來(lái)比,那肯定 30 歲的博士知識(shí)面更廣。但是,我們不能說(shuō)這個(gè) 10 歲的孩子在未來(lái)無(wú)法達(dá)到甚至超越這位博士的成就。因?yàn)槿绻@個(gè) 10 歲的孩子自我學(xué)習(xí)能力足夠高,他的未來(lái)成長(zhǎng)速度可能比 30 歲的博士還要快。所以我們認(rèn)為,自主學(xué)習(xí)能力才是衡量一個(gè)模型智能化程度的重要標(biāo)志?!箘⒎财秸f(shuō)道??梢哉f(shuō),這種自主學(xué)習(xí)能力才是 RockAI 追求的「scaling law」。

為了實(shí)現(xiàn)這種自主學(xué)習(xí)能力,RockAI 的團(tuán)隊(duì)提出了一種「訓(xùn)推同步」機(jī)制,即讓模型可以在推理的同時(shí),實(shí)時(shí)有效且持續(xù)性地進(jìn)行知識(shí)更新和學(xué)習(xí),最終建立自己獨(dú)有的知識(shí)體系。這種「訓(xùn)推同步」的運(yùn)行方式類似于人類在說(shuō)話的同時(shí)還能傾聽(tīng)并將其內(nèi)化為自己的知識(shí),對(duì)底層技術(shù)的要求非常高。

為此,RockAI 的團(tuán)隊(duì)正在尋找反向傳播的更優(yōu)解,方法也已經(jīng)有了一些原型,并且在世界人工智能大會(huì)上進(jìn)行過(guò)展示。不過(guò),他們的方法原型目前仍面臨一些挑戰(zhàn),比如延遲。在后續(xù) Yan 2.0 的發(fā)布中,我們有望見(jiàn)到原型升級(jí)版的演示。

那么,在每一臺(tái)設(shè)備都擁有了智能后,它們之間要怎么聯(lián)結(jié)、交互,從而涌現(xiàn)出群體智能?對(duì)此,劉凡平已經(jīng)有了一些初步構(gòu)想。

首先,它們會(huì)組成一個(gè)去中心化的動(dòng)態(tài)系統(tǒng)。在系統(tǒng)中,每臺(tái)設(shè)備都擁有自主學(xué)習(xí)和決策的能力,而不需要依賴一個(gè)中央智能來(lái)控制全局。同時(shí),它們之間又可以共享局部數(shù)據(jù)或經(jīng)驗(yàn),并通過(guò)快速的通信網(wǎng)絡(luò)互相傳遞信息,從而在需要時(shí)發(fā)起合作,并利用其他智能體的知識(shí)和資源來(lái)提升任務(wù)完成的效率。

路線「小眾」,挑戰(zhàn)與機(jī)遇并存

縱觀國(guó)內(nèi) AI 領(lǐng)域,RockAI 走的路可以說(shuō)非?!感”姟?因?yàn)槔锩嫔婕暗椒浅5讓拥膭?chuàng)新。在硅谷,有不少人在做類似的底層研究,就連「神經(jīng)網(wǎng)絡(luò)之父」Hinton 也對(duì)反向傳播的一些限制表示過(guò)擔(dān)憂,特別是它與大腦的生物學(xué)機(jī)制不符。不過(guò),大家目前都還沒(méi)有找到特別有效的方法,因此這一方向還沒(méi)有出現(xiàn)明顯的技術(shù)代差。對(duì)于 RockAI 這樣的國(guó)內(nèi)企業(yè)來(lái)說(shuō),這既是挑戰(zhàn),也是機(jī)遇。

對(duì)于群體智能,劉凡平相信,這是一條邁向更廣泛的通用人工智能的路線,因?yàn)樗睦碚摶A(chǔ)是非常堅(jiān)實(shí)的,「如果沒(méi)有群體智能,就沒(méi)有人類社會(huì)的文明,更不會(huì)有科技的發(fā)展」。

而且,劉凡平認(rèn)為,群體智能所能帶來(lái)的生產(chǎn)力變革比擁有超級(jí)智能的單個(gè)大模型所能帶來(lái)的更全面、更多樣。隨著自主架構(gòu)大模型的研發(fā)成功和多元化硬件生態(tài)的構(gòu)建,他們相信自己正在逐漸接近這一目標(biāo)。

我們也期待看到這家公司的后續(xù)進(jìn)展。

 

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)文章

熱門排行

信息推薦