域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過(guò)
羅技和百度AI這對(duì)跨界組合,正在重新定義語(yǔ)音輸入。
4月13日,全球著名云周邊設(shè)備供應(yīng)商羅技推出了一款“語(yǔ)音鼠標(biāo)”,在百度AI的優(yōu)先賦能下,用戶點(diǎn)擊鼠標(biāo)上的語(yǔ)音鍵就能進(jìn)行語(yǔ)音輸入,不僅在PC端實(shí)現(xiàn)了中英文自由夾雜語(yǔ)音輸入,還可以實(shí)時(shí)進(jìn)行多種語(yǔ)言的語(yǔ)音翻譯。
其實(shí)類(lèi)似的概念并非是羅技首創(chuàng)。早在兩年多前就出現(xiàn)了主打“語(yǔ)音輸入”的鍵鼠類(lèi)產(chǎn)品,諸如“智能鼠標(biāo)”的概念也被多家品牌借用,但無(wú)一成為現(xiàn)象級(jí)的爆款產(chǎn)品,PC端語(yǔ)音輸入的用戶習(xí)慣也無(wú)從談起。
百度AI為何要在這個(gè)時(shí)候進(jìn)行跨界,并選擇牽手羅技這樣的市場(chǎng)領(lǐng)導(dǎo)者,背后到底隱藏了什么樣的野心?
01 知易行難的語(yǔ)音輸入
人類(lèi)對(duì)語(yǔ)音輸入似乎有著天生的執(zhí)念。
早在2000年前后,個(gè)人電腦還屬于少數(shù)人的玩物,IBM推出的軟件工具ViaVoice就開(kāi)始風(fēng)靡全球。按照IBM的設(shè)想,ViaVoice將在人與機(jī)器之間擔(dān)當(dāng)“翻譯”,只要一句話就能編排文本格式、控制桌面、操作程序、發(fā)送Email……
雖然IBM解放雙手的革命未能如愿,卻為整整一代人種下了“動(dòng)口不動(dòng)手”的交互理念。比如在2018年的時(shí)候,羅永浩推出了宣稱(chēng)是“下一代個(gè)人電腦”的TNT,試圖將IBM講述的“美麗童話”從傳說(shuō)變成現(xiàn)實(shí)。遺憾的是,老羅的TNT乃至后面推出的“智能鼠標(biāo)”,都和ViaVoice一樣成了被懷舊的對(duì)象。
為何語(yǔ)音輸入一度成了懸而未決的世紀(jì)難題?可以找到三個(gè)直接相關(guān)的痛點(diǎn)。
一是連續(xù)語(yǔ)音輸入的“尷尬”。
語(yǔ)音輸入并非沒(méi)有落地的場(chǎng)景,和智能音箱的語(yǔ)音交互、聊天時(shí)的語(yǔ)音識(shí)別等等,可以說(shuō)是屢見(jiàn)不鮮的場(chǎng)景,然而切換到辦公時(shí)長(zhǎng)篇幅的連續(xù)輸入,現(xiàn)有的語(yǔ)音識(shí)別模型常常出現(xiàn)“宕機(jī)”的問(wèn)題。
時(shí)間追溯2015年,注意力模型已經(jīng)是語(yǔ)音識(shí)別的主流技術(shù),在語(yǔ)音識(shí)別的準(zhǔn)確率方面有了突破性的進(jìn)展,但注意力模型大多是基于整句的建模,通過(guò)機(jī)器學(xué)習(xí)選擇和當(dāng)前建模單元最匹配的特征,導(dǎo)致句子越長(zhǎng)識(shí)別難度就越大,出錯(cuò)的概率也就越高,同時(shí)還伴隨著較長(zhǎng)的用戶等待時(shí)間。
二是遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別的不足。
網(wǎng)上流傳著使用TNT工作站的段子:想要在辦公室里用語(yǔ)音操作TNT,先要提前喊一聲“安靜”,讓周邊的同事自動(dòng)進(jìn)入到消聲狀態(tài),不然TNT可能不知道是誰(shuí)在說(shuō)話,語(yǔ)音識(shí)別的準(zhǔn)確率讓人堪憂。
背后牽涉到的是遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別技術(shù),如果目標(biāo)聲源距離拾音器比較遠(yuǎn),將導(dǎo)致目標(biāo)信號(hào)衰減嚴(yán)重,加上嘈雜的外部環(huán)境制造了太多的干擾信號(hào),最終導(dǎo)致信噪比較低、語(yǔ)音識(shí)別性能比較差。我們已經(jīng)習(xí)慣在手機(jī)上對(duì)著麥克風(fēng)說(shuō)話,但不可能以趴在電腦上的姿勢(shì)對(duì)著屏幕進(jìn)行語(yǔ)音輸入。
三是語(yǔ)言混合輸入的難題。
即使不考慮長(zhǎng)句子連續(xù)輸入和遠(yuǎn)場(chǎng)識(shí)別的問(wèn)題,日益進(jìn)化的語(yǔ)言習(xí)慣也一度制約語(yǔ)音輸入的普及。就像很多人在工作中常常出現(xiàn)中英詞匯混用的情況,或者有時(shí)候飚一句方言,都可能難倒識(shí)別工具。
盡管一些語(yǔ)音識(shí)別工具推出了多種語(yǔ)言的識(shí)別模型,可在過(guò)去很長(zhǎng)一段時(shí)間里,需要用戶先手動(dòng)切換至想要識(shí)別的語(yǔ)言,比如你想要用四川話進(jìn)行語(yǔ)音輸入,先要到輸入法的設(shè)置中將語(yǔ)言設(shè)定為四川話,說(shuō)普通話的時(shí)候再去切換回來(lái)。不僅進(jìn)一步增加了用戶的學(xué)習(xí)成本,體驗(yàn)也不盡如人意。
在種種待解痛點(diǎn)的制約下,語(yǔ)音輸入的想象固然美好,但前提是進(jìn)行一場(chǎng)技術(shù)上的長(zhǎng)征??梢宰糇C的是,微軟剛剛以197億美元的價(jià)格收購(gòu)了Siri背后的語(yǔ)音技術(shù)玩家Nuance,計(jì)劃將Nuance的語(yǔ)音識(shí)別技術(shù)和旗下其他產(chǎn)品整合,以接棒在技術(shù)和場(chǎng)景上落后而被迫默默退場(chǎng)的Cortana。
02 百度AI的三步走戰(zhàn)略
而在語(yǔ)音技術(shù)的賽道上,百度已經(jīng)奔跑了十年。
2010年百度正式成立了語(yǔ)音團(tuán)隊(duì),主要研發(fā)百度語(yǔ)音識(shí)別、語(yǔ)音合成等在內(nèi)的一系列核心技術(shù),并逐步將百度的語(yǔ)音技術(shù)應(yīng)用于小度智能音箱、百度輸入法、小度車(chē)載助手、百度智能語(yǔ)音呼叫中心等產(chǎn)品。
不過(guò)在PC端語(yǔ)音輸入的話題上,百度AI在很長(zhǎng)時(shí)間里并未追逐“智能硬件”的風(fēng)口,默默制定了語(yǔ)音技術(shù)的三步走戰(zhàn)略:
第一階段,語(yǔ)音識(shí)別算法的持續(xù)打磨。
為了解決連續(xù)語(yǔ)音輸入的痛點(diǎn),百度AI的工程師們?cè)谧⒁饬δP偷幕A(chǔ)上,創(chuàng)新性地提出了流式多級(jí)截?cái)嘧⒁饬δP蚐MLTA,利用CTC算法對(duì)連續(xù)語(yǔ)音流進(jìn)行截?cái)?,然后?duì)每一個(gè)小段的語(yǔ)音進(jìn)行建模,把原來(lái)整句的建模,變成了局部語(yǔ)音小段的建模。這樣用戶話音一落就可以拿到識(shí)別結(jié)果,保證了最佳的用戶體驗(yàn)。
同時(shí)百度AI還針對(duì)語(yǔ)言混合輸入進(jìn)行了算法優(yōu)化,羅技推出的“語(yǔ)音鼠標(biāo)”VOICE M380就支持8種語(yǔ)言的語(yǔ)音翻譯,首次通過(guò)羅技鼠標(biāo)在PC上實(shí)現(xiàn)了中英文自由夾雜語(yǔ)音輸入,以及粵語(yǔ)、四川話、東北話、河南話等7種方言免切換混合輸入。
第二階段,一體化的端到端建模技術(shù)。
市場(chǎng)上常見(jiàn)的遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別技術(shù),往往將麥克風(fēng)陣列作為拾音器,然后利用多通道語(yǔ)音信號(hào)處理技術(shù)增強(qiáng)目標(biāo)信號(hào)。這種先語(yǔ)音增強(qiáng)后語(yǔ)音識(shí)別的思路,在一定程度上提高了識(shí)別的準(zhǔn)確率,但增強(qiáng)目標(biāo)和優(yōu)化目標(biāo)可能并不一致。
百度AI的思路是“語(yǔ)音增強(qiáng)和語(yǔ)音聲學(xué)建模一體化”的端到端建模,并提出了基于復(fù)數(shù)CNN的遠(yuǎn)場(chǎng)端到端建模方案,利用復(fù)數(shù)CNN 網(wǎng)絡(luò)挖掘生理信號(hào)本質(zhì)特征的特點(diǎn),直接對(duì)原始的多通道語(yǔ)音信號(hào)進(jìn)行多尺度多層次的信息抽取,避免了由于定位出錯(cuò)而導(dǎo)致識(shí)別準(zhǔn)確率急劇下降的問(wèn)題,最終遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別的錯(cuò)誤率降低了30%以上。
第三階段,自研芯片加速產(chǎn)業(yè)化落地。
語(yǔ)音輸入的隱形制約還有算力和功耗。在語(yǔ)音技術(shù)從云端競(jìng)爭(zhēng)向芯片端延伸的趨勢(shì)下,算力直接關(guān)系著用戶體驗(yàn),但傳統(tǒng)芯片的平均功耗在1W以上,算力和功耗的兩難,進(jìn)一步制約了語(yǔ)音輸入的應(yīng)用場(chǎng)景。
在提出端到端的一體化方案后,百度AI將目光瞄向了芯片端。在2019年發(fā)布了首款針對(duì)遠(yuǎn)場(chǎng)語(yǔ)音交互研發(fā)的鴻鵠芯片,通過(guò)端到端的軟硬一體化框架,將所有語(yǔ)音交互任務(wù)集中到一顆低功耗語(yǔ)音交互芯片上,提取的語(yǔ)音特征直接在云端進(jìn)行高精準(zhǔn)識(shí)別。目前鴻鵠芯片的平均功耗只有100mw,完全滿足3C產(chǎn)品0.5W的待機(jī)標(biāo)準(zhǔn)。
和智能語(yǔ)音同時(shí)進(jìn)化的,還有百度AI的機(jī)器翻譯,過(guò)去十年中在大規(guī)模產(chǎn)業(yè)化機(jī)器翻譯模型、海量翻譯知識(shí)獲取、多語(yǔ)言翻譯統(tǒng)一框架、機(jī)器同聲傳譯等方面進(jìn)行了系統(tǒng)而深入的研究。特別是基于神經(jīng)網(wǎng)絡(luò)的多語(yǔ)言翻譯統(tǒng)一框架,在全世界范圍內(nèi)首次實(shí)現(xiàn)了203種語(yǔ)言的互譯。
百度AI圍繞智能語(yǔ)音和機(jī)器翻譯的戰(zhàn)略布局佐證了這樣一個(gè)事實(shí):技術(shù)賽道并非是閉門(mén)造車(chē),百度AI對(duì)羅技的優(yōu)先賦能,正是精準(zhǔn)把握產(chǎn)業(yè)化需求的體現(xiàn)。
03 產(chǎn)業(yè)化的大航海時(shí)代
消除了用戶體驗(yàn)上的痛點(diǎn),百度AI開(kāi)啟了語(yǔ)音技術(shù)的產(chǎn)業(yè)化進(jìn)程。
百度AI和羅技跨界推出主打語(yǔ)音技術(shù)的“鼠標(biāo)”,不失為一次有示范效應(yīng)的練兵。正如前面所提到的,從IBM的ViaVoice開(kāi)始算起,語(yǔ)音輸入在PC上的應(yīng)用已經(jīng)持續(xù)了20多年,期間誕生了形形色色的軟硬件產(chǎn)品,但未能改變“鍵鼠”的市場(chǎng)地位,大多數(shù)新奇的產(chǎn)品最終被人們選擇性遺忘。
百度AI和羅技則為語(yǔ)音輸入開(kāi)啟新的篇章。
一方面,目前百度AI的中文語(yǔ)音識(shí)別率已經(jīng)達(dá)到98.6%,背后是人機(jī)交互效率的再次刷新。比如大多數(shù)打字員每分鐘輸入的字?jǐn)?shù)在80到200之間,而百度AI的語(yǔ)音輸入在實(shí)驗(yàn)室環(huán)境中可以達(dá)到每分鐘400字,何況語(yǔ)音輸入的門(mén)檻相對(duì)更低,小孩子、老人、視覺(jué)障礙人群等特殊人群也可以使用,人機(jī)交互的成本和效率都在被拉平。
另一方面,百度AI和羅技的跨界為語(yǔ)音輸入找到了新的應(yīng)用場(chǎng)景:除了單純的文字輸入場(chǎng)景外,還可以用于會(huì)議、演講、采訪等場(chǎng)景下的文字記錄;語(yǔ)音翻譯功能緊緊貼合了當(dāng)前辦公場(chǎng)景中,和外國(guó)同事、客戶等跨語(yǔ)言溝通交流的需求……相較于20多年前替代鍵盤(pán)的單一訴求,語(yǔ)音輸入的價(jià)值正越來(lái)越多元,應(yīng)用場(chǎng)景也越來(lái)越廣泛。
進(jìn)一步深挖的話,百度AI和羅技的跨界不僅為語(yǔ)音輸入的“夢(mèng)想”畫(huà)了一個(gè)句號(hào),正式推出的“語(yǔ)音輸入服務(wù)”,也為智能語(yǔ)音的產(chǎn)業(yè)化提供了新的思路。
語(yǔ)音技術(shù)之所以被頻頻聚焦,原因在于語(yǔ)音正在逐步改變固有的人機(jī)交互習(xí)慣,并且已經(jīng)在家庭、車(chē)載等場(chǎng)景中被驗(yàn)證。正如鼠標(biāo)、觸摸屏等曾經(jīng)引發(fā)的浪潮,語(yǔ)音交互大概率將催生出新的生態(tài),而那些無(wú)法適應(yīng)新趨勢(shì)及時(shí)迭代進(jìn)化的產(chǎn)品,不排除一步步被市場(chǎng)所淘汰的可能。
于是“+AI”漸漸成了行業(yè)的熱門(mén)話題,幾乎所有的行業(yè)都在思考利用AI降本增效或轉(zhuǎn)型升級(jí)。百度代表的人工智能領(lǐng)頭羊也逐漸意識(shí)到:人工智能的使命不是顛覆或重構(gòu)一個(gè)行業(yè),而是幫助行業(yè)找尋新的增長(zhǎng)動(dòng)能。
對(duì)應(yīng)的動(dòng)作就是百度大腦在6.0時(shí)的升級(jí),作為百度AI多年技術(shù)積累和產(chǎn)業(yè)實(shí)踐的集大成,百度大腦被定義為中國(guó)智能經(jīng)濟(jì)的基座,試圖通過(guò)軟硬一體的能力輸出,避免合作伙伴們一次次重復(fù)造輪子。其中語(yǔ)音能力恰是百度大腦的核心優(yōu)勢(shì)之一,每天的調(diào)用量早已超過(guò)155億次。
百度AI對(duì)羅技軟硬一體的優(yōu)先賦能,和百度大腦加速產(chǎn)業(yè)智能化升級(jí)的戰(zhàn)略不無(wú)關(guān)系。不同于行業(yè)中常見(jiàn)的兜售算法形式的合作,百度AI針對(duì)羅技桌面級(jí)的場(chǎng)景進(jìn)行了單獨(dú)的優(yōu)化和適配,并選擇以軟硬一體的方式幫助羅技打造真正的殺手級(jí)產(chǎn)品,在產(chǎn)品力和用戶體驗(yàn)上形成獨(dú)一無(wú)二的技術(shù)壁壘。
而當(dāng)羅技這樣的行業(yè)領(lǐng)導(dǎo)者主動(dòng)擁抱百度AI,也在某種程度上預(yù)示著智能語(yǔ)音的產(chǎn)業(yè)化開(kāi)始進(jìn)入大航海時(shí)代。
04 寫(xiě)在最后
百度AI x 羅技的范式,為智能語(yǔ)音的落地撕開(kāi)了一道口子。
可以預(yù)見(jiàn)的是,鼠標(biāo)絕不會(huì)是二者跨界的唯一產(chǎn)品,后續(xù)百度AI的智能語(yǔ)音將逐步兼容更多的羅技產(chǎn)品;同時(shí)羅技也不會(huì)是唯一加入到“+AI”行列的品牌,語(yǔ)音技術(shù)在各行各業(yè)的應(yīng)用落地進(jìn)程正在加速。
借用一句古話來(lái)說(shuō):“舊時(shí)王謝堂前燕,飛入尋常百姓家”。在百度AI持續(xù)對(duì)外賦能的姿態(tài)下,我們的生活正逐步被AI改變。
申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!