語音助手鏖戰(zhàn)“全雙工”，車載會是一個好場景嗎？

2019-10-21 20:04 來源：A5專欄我來投稿撤稿糾錯

一方面，作為最接近自然交互的形式，全雙工已經(jīng)成為智能語音領域的“香餑餑”，各大AI語音巨頭都在積極布局。

另一方面，車載場景的人機交互需求也越來越強烈，在手沒有被完全解放的情況下，駕駛員們對更自由、更隨性、更解放的語音交互有著更強烈的需求，全雙工為應用“剛需”。

與普通生活場景不同，車載環(huán)境的用戶手動操作更加不便捷，而同時又往往有諸多功能操作(例如關窗、開空調(diào))、生活服務(例如導航)、娛樂消遣需求(例如聽歌)，多樣化需求更需要更連續(xù)的對話體驗 ——如果每一個指令都要喚醒口令，不但用戶體驗不佳，從旁觀者看，這種交互方式也頗有些尷尬。

與此同時，有限空間里的司乘對話，多人對話與人機交互疊加，加上駕駛環(huán)境的嘈雜，無疑對智能語音提出了更嚴峻的挑戰(zhàn)。

于是，迫切的用戶需求加上龐大的商業(yè)價值空間，以及車企這些年對產(chǎn)品創(chuàng)新的渴求，在這場全雙工的鏖戰(zhàn)中，車載語音場景不出預料成了玩家競逐的焦點，全雙工+車載的“搭配”迎來廣闊的市場機會。例如，不久前的重慶智博會上，騰訊云小微就聯(lián)合騰訊車聯(lián)展示全雙工語音交互技術，讓用戶對車載語音助手有了更多的好感和期待。

巨頭鏖戰(zhàn)全雙工，也推動“第三空間”競逐走向臺前

目前為止，車載+全雙工落地應用仍處于初期階段，技術研發(fā)與應用適配同步進行中。

1、車載全雙工，巨頭各有玩法姿勢

微軟在2018年3月底宣布“全雙工語音交互感官”已完成產(chǎn)品化落地，“長程語音交互成為可能”，到2019年8月，又宣布全雙工語言交互技術已經(jīng)通過車載設備完成測試，已經(jīng)有了幾個測試合作汽車廠。

微軟的全雙工語音及其車載應用是小冰項目的延續(xù)， 第七代微軟小冰的重心之一是實現(xiàn)車載商用，逐步由“玩具”轉(zhuǎn)向現(xiàn)實價值，車載無疑是當下最恰當?shù)倪x擇。

而百度在押寶AI戰(zhàn)略的大方向下，全雙工技術的推廣十分積極。今年7月，小度助手升級的全雙工語音已經(jīng)在小度在家智能音箱產(chǎn)品上使用，且開放賦能給更多智能硬件終端。

入局語音交互領域較早的科大訊飛，在2019年5月底發(fā)布了智能物聯(lián)網(wǎng)操作系統(tǒng)iFLYOS 2.0，也在多個領域開始了全雙工交互技術的應用嘗試。

今年8月，重慶智博會上，騰訊云小微全雙工語音技術也正式對外展示。依靠騰訊云小微這些年在語音技術上的深耕，選擇了最為“剛需”的車載場景率先落地全雙工交互技術，試圖從最符合用戶需求的駕駛場景打頭陣，然后進行全域拓展。

車聯(lián)網(wǎng)與AI助手的結合，也是技術與生態(tài)基礎上的B+C的搭配，非常符合騰訊在ToB轉(zhuǎn)向過程中的一貫調(diào)性。

2、技術推動下，第三空間正由概念走向?qū)嵺`

在很久之前，汽車就被認為是家庭、工作之外的“第三空間”，在歐美等汽車文化濃郁的國家，車的第三空間價值十分明顯。

但在中國，日常出行的屬性仍然占據(jù)大頭，用戶進入車內(nèi)，聽音樂、導航、調(diào)空調(diào)……在不用重復喚醒的情況下，很自然完成一套操作……把全雙工放到車載場景中，如果從汽車角度看，本質(zhì)上是“第三空間”的一種強化。

拋開技術，從具體場景實踐來看，巨頭們在全雙工領域的布局和競爭，也在推動“第三空間”競逐走向臺前，誰能讓用戶真正體會到車上服務的便利，挖掘這個空間的用戶價值，誰就能在車載場景中實現(xiàn)商業(yè)突圍，這本身也與汽車廠商求新、求變、謀求市場增量的需求相吻合。

第三空間的體驗塑造，將面對用戶痛點的“三重區(qū)分”的挑戰(zhàn)

離開汽車視角，從全雙工技術視角來看，其面臨的首要挑戰(zhàn)在于，如何在連續(xù)對話中還能擁有很高準確率和響應速度。

例如，從已有資料看，騰訊云小微的全雙工語音交互技術，在30秒到90秒的時間范圍內(nèi)(用戶自行設定)，一次喚醒即可實現(xiàn)連續(xù)對話，過程中用戶可以隨時打斷機器的回答。

而除了全雙工的特殊能力，騰訊云小微可實現(xiàn)車載復雜噪聲環(huán)境下喚醒率97%以上，語音識別準確率96%以上，意圖理解準確率高達98%。

這里不去對比這些數(shù)字的優(yōu)劣，畢竟多數(shù)語音助手都能拿出還不錯的成績，但它們至少說明 “全雙工”交互下，準確率仍能保持高水準。不過，在汽車有限的第三空間里塑造用戶體驗，語音助手們還有三大硬骨頭要啃——實現(xiàn)用戶的三種“區(qū)分”需求。

1、在幾何級技術難度升級的基礎上，區(qū)分“情境”

騰訊云小微稱包括播放音樂、導航、查股票、查天氣等眾多服務在內(nèi)，用戶都可以通過語音指令，跟車機一次喚醒、連續(xù)應答、自然交互，這其中涉及一個很重要的問題：跨情境的全雙工服務。

目前的車載語音助手已經(jīng)可以做到在一定場景內(nèi)免喚醒，例如常用的聽音樂，想聽A歌曲又反悔，想聽B歌曲，機器自動識別不需要用戶多次喚醒。

而當場景需求延展后，全雙工語音技術就不得不面臨既要連續(xù)、又要跨情境“思考”的挑戰(zhàn)， 而這又幾乎是汽車體驗的必須，內(nèi)容、導航、查詢、設備控制……區(qū)分場景是“全雙工”的必要技能。

很明顯，即便是人的溝通在轉(zhuǎn)換話題時也需要適應，機器在面臨這種情境跨越的全雙工語音時，其難度是乘法級的幾何提升，而非僅僅做疊加而已。

2、在復雜的對話環(huán)境中，區(qū)分“人”

與歐美不同，在當下中國汽車文化中，家庭單位屬于仍然強于個人單位，“每家都有車”而不是“每人都有車”。很多時候，車中不只有司機，而肯定有副駕駛等其他乘客。

所謂“第三空間”不只是為司機服務，也為所有乘客服務。

對車載全雙工而言，這又帶來一個特殊的問題，如何讓不同的人有屬于自己的完整體驗。 如果把全雙工比作一個人，與之溝通時，司機或乘客肯定都希望他與自己的溝通是完整的。

從當前的解決方式來看，行業(yè)主要采用多音區(qū)設置：主駕喚醒之后，都是聽主駕的聲音，副駕的喚醒后，都是聽副駕的語音，理論上，另一個人要接入全雙工交互，必須重新喚醒，才可以開啟自己的完整對話體驗。嚴格來說，這是通過物理設置的替代性方案，并非機器對不同聲音的完全識別，而是通過聲音的來源區(qū)分“人”。行業(yè)內(nèi)也正在發(fā)展的“聲紋識別技術”，直接辨別不同的用戶，或才是未來更為徹底的解決方案，不過這仍需要等待。

3、在豐富多樣的服務中，區(qū)分“需求”

智能語音從一開始就是兩條腿走路：前端聽懂用戶說了什么，后端根據(jù)用戶的個性化需求推薦給不同的內(nèi)容、服務，或者執(zhí)行某些操控指令。

放到車載全雙工這里，其實問題拓展到了兩個層面：

怎么聽懂是對機器說的，而不是對其他人說的(比如人和人聊天)，不要誤解用戶的需求;

在確定是對機器的需求后，如何實現(xiàn)更為個性化的服務輸出，畢竟，如果用戶想吃點喜歡吃的，你隨便導航到了一個用戶不喜歡的店子，或者甚至用戶想要去放松一下，你給導航到了公司，這樣的連續(xù)交互也就失去了意義。

前者需要語音識別能力的極大加強，它還有許多細節(jié)需要用技術實現(xiàn)，例如騰訊云小微稱其借助云端大腦，不但能理解用戶的話哪些是需要響應的指令，哪些只是用戶對別人說的話，這其中同樣涉及復雜場景需求問題，懂更多還要區(qū)分是不是需求，挑戰(zhàn)進一步升級。

后者，本質(zhì)上可以視為個性化推薦機制的延續(xù)，考驗的語音助手背后的平臺數(shù)據(jù)能力，如何在盡可能短的時間內(nèi)了解眼前的用戶，為其提供定制化服務，強化全雙工的“實質(zhì)”支撐，而不是只有花架子。 騰訊云小微打出“懂你所需”的旗號，通過訓練后推送定制化服務內(nèi)容，這是全雙工技術的行業(yè)必然，只是看誰能更為準確。

對用戶而言，同樣是自然的交互，如同與人交流一樣，與一個“懂你所需”的全雙工語音助手交互，就像是熟人聊天，而與無法實現(xiàn)定制化服務輸出的機器交互，就像是在和陌生人聊天， 其體驗差距無需多言。

全雙工語音助手趨勢不可避免，車載只是拼圖的一塊

幾乎不會有人否認，語音助手是人機交互必然趨勢。經(jīng)過幾年的發(fā)展，在巨頭們的努力下，越來越高的語音識別準確率，各平臺飚出的準確率指標，本身就證明機器的“聽見”和“聽懂”已經(jīng)逐步實現(xiàn)，剩下的是不斷完善的過程。

而“智商”問題一旦接近解決，“情商”問題就走向臺前，讓機器更貼近人，實現(xiàn)人性化、情感化，是語音助手必然的趨勢。

于是，全雙工等新技術不斷涌現(xiàn)。幾乎可以肯定的是，在未來，一方面全雙工必然要突破參數(shù)瓶頸，例如沒有30秒、90秒的區(qū)分，而是無限連續(xù)同時準確識別需求，就是如科幻片機器人管家那樣的無縫交互，這是語音助手發(fā)展的必然;另一方面，更多其他的科技將不斷涌現(xiàn)，例如多模態(tài)識別，將聲音、圖像、環(huán)境等諸多因素整合來與用戶自然交互。

而顯然，雖然車載急迫需要全雙工等更多自然交互技術，但全雙工并不只會局限于車載。 幾乎所有巨頭的全雙工技術的“理想”都是全場景應用，即便是騰訊云小微選擇以車載為典型，未來也必將在全領域發(fā)力——到目前為止，在出行領域之外，騰訊云小微憑借全棧AI能力及騰訊豐富的內(nèi)容和服務生態(tài)，在文旅、政務、教育、智能硬件等多個領域都有涉獵。

以硬件為例，騰訊云小微AI應用解決方案已經(jīng)輸送到機器人、智能電視、智能音箱、智能空調(diào)等多個品牌多款產(chǎn)品中，而且百度、科大訊飛、阿里等玩家都在積極布局。

可以說，車載是全雙工最熱的局部戰(zhàn)場，未來的全雙工將是全領域的戰(zhàn)爭，屆時，當物聯(lián)網(wǎng)真正全面落地時，汽車這樣的第三空間將融入一個相互連接、不分彼此的“唯一空間”，車載全雙工與家居、工作全雙工聯(lián)動，人與虛擬數(shù)字世界將實現(xiàn)無縫對接。

拭目以待吧。

*此內(nèi)容為【科技向令說】原創(chuàng)，未經(jīng)授權，任何人不得以任何方式使用，包括轉(zhuǎn)載、摘編、復制或建立鏡像。

【完】曾響鈴

申請創(chuàng)業(yè)報道，分享創(chuàng)業(yè)好點子。點擊此處，共同探討創(chuàng)業(yè)新機遇！

相關標簽: 智能語音; ai技術

匯聚中國AI頂尖力量云天勵飛參與華為AI大模型聯(lián)合創(chuàng)新

2023年7月6日,第六屆世界人工智能大會(WAIC2023)在上海開幕,“人工智能大模型”是本屆大會的備受矚目的話題,據(jù)悉,在昇騰AI大模型的創(chuàng)新研發(fā)中,華為聯(lián)手26家行業(yè)領軍企業(yè),組建了一支協(xié)同創(chuàng)新的“AI明星隊”,云天勵飛作為中國人工智能企業(yè)的杰出代表,和互聯(lián)網(wǎng)大廠、運營商、科研院所等優(yōu)秀團隊

標簽：

ai技術
用友大易：邁入AI招聘2.0時代，讓人力資源回歸本質(zhì)

這幾個月來，以ChatGPT為代表的生成式AI展現(xiàn)出的能力令世界驚嘆。自從2016年AlphaGo戰(zhàn)勝李世石掀起了一波AI浪潮后，AI仿佛已經(jīng)沉寂了很久，ChatGPT的橫空出世就如同一束耀眼的光芒，讓AI這個名詞重回C位。過去在AI1.0時代，主要通過訓練模型來實現(xiàn)圖像識別、聲音識別、語言處理等特

標簽：

ai技術
新發(fā)布的PaaS2.0，能否助力涂鴉智能再起飛？

文：互聯(lián)網(wǎng)江湖作者：志剛2023年的IoT需要一個新故事。6月29日，涂鴉智能在開發(fā)者大會上，發(fā)布了企業(yè)級戰(zhàn)略PaaS2.0，希望通過一個平臺+四大開發(fā)服務，建立起IoT生態(tài)。對于這場發(fā)布會，市場的態(tài)度是積極的。美東時間6月29日收盤，涂鴉智能美股股價上漲5.6%，來到1.87美元/股。近日股價穩(wěn)定

標簽：

ai技術
大模型難掩AI制藥的悲傷：越過山丘，無人等候

美團曾經(jīng)的二號人物王慧文對標OpenAI的創(chuàng)業(yè)項目光年之外，以20億賣給美團，再度引發(fā)市場對大模型的熱議。

標簽：

ai技術
拾起王慧文的AI夢，美團沖向“光年之外”？

2020年底，王慧文在朋友圈寫下這句話時，外界本以為這位伴隨中國互聯(lián)網(wǎng)發(fā)展而持續(xù)創(chuàng)業(yè)20年的人物即將告別創(chuàng)業(yè)舞臺。但是，一個曾經(jīng)多次創(chuàng)業(yè)，正值壯年的互聯(lián)網(wǎng)老將心中的創(chuàng)業(yè)熱情是難以熄滅的。

標簽：

ai技術

庫克已納投名狀：蘋果AI沒得選，只能選百度

蘋果16弄了兩個版本，一個是專門給中國人用的，準備用百度的AI，還要交錢。第二個是全世界都可以用的，用了ChatGPT，包括臺灣、香港、澳門都可以用。以后都這樣了。好，問題就出在這，蘋果和百度的合作出現(xiàn)問題了，新聞連起來看，才能明白其中含義。新聞一：蘋果正在和騰訊、字節(jié)初步接洽，考慮將二者的AI模型

標簽：

蘋果AI

百度AI

庫克
AI加速時代的“進度條”，我們撥動了百分之幾？

“技術日新月異，人類生活方式正在快速轉(zhuǎn)變，這一切給人類歷史帶來了一系列不可思議的奇點。我們曾經(jīng)熟悉的一切，都開始變得陌生。”計算機之父約翰·馮·諾依曼曾這樣說到。

標簽：

ai智能
AI視頻賽道，要變天了

“毀滅你，與你何干？”，這是在劉慈欣的科幻小說《三體》里用來形容人類與三體人之間的戰(zhàn)爭的一句話。

標簽：

ai智能
“創(chuàng)造市場”與“算法進化”，中美AI競速的岔路口

“人工智能的商業(yè)模式，是要創(chuàng)造一個市場，而非一個算法”。這是世界AI泰斗MichaelI.Jordan的觀點。而當前的全球AI市場，占據(jù)主導地位的中美雙方，卻也走出了兩條截然不同的技術路徑，前者執(zhí)著于前沿技術的探索，后者則發(fā)力應用優(yōu)化和商業(yè)化落地。南轅北轍的兩個方向，或許已經(jīng)無法直接進行排位先后、優(yōu)

標簽：

ai智能
智能體進化發(fā)展了一年，現(xiàn)在的RPA Agent迭代到什么程度了？

智能體進化發(fā)展了一年，現(xiàn)在的RPAAgent迭代到什么程度了？從實在智能最新發(fā)布的實在Agent7.0，看RPAAgent的迭代升級抓取豆瓣信息、自己制作PPT，這款AIAgent真的實現(xiàn)了流程全自動化AIAgent構建到執(zhí)行全自動化，持續(xù)進化RPAAgent再次降低智能體應用門檻實在智能重磅發(fā)布實
崔大寶：大模型降溫背后的難點、卡點、節(jié)點

崔大寶｜節(jié)點財經(jīng)創(chuàng)始人進入2024年，大模型似乎有熄火之勢：資本市場，與之關聯(lián)的概念炒不動了，英偉達股價動輒暴跌重挫，引發(fā)“泡沫戳破”的擔憂；消費市場，BATH們的推新活動少了，產(chǎn)品更新迭代的速度慢了，民眾的關注度降了……熱鬧的大概只剩下兩場酣仗：自5月15日字節(jié)跳動宣布“以厘計費”，打響國內(nèi)大模型

標簽：

大模型

這一屆“出道”的數(shù)字人，已經(jīng)拿捧上了“鐵飯碗”

文|智能相對論作者|陳泊丞好消息！你心心念念的事業(yè)單位發(fā)錄取公告了！壞消息！他們沒錄你，錄了個數(shù)字人。圖片來源網(wǎng)絡隨著數(shù)字人技術的突破，越來越多的傳統(tǒng)企業(yè)和機構開始用上了“數(shù)字員工”。甚至很多中國人心心念念的“鐵飯碗”，也被這些數(shù)字人給捧上了。數(shù)字人捧上了“鐵飯碗”簡單翻看一下全國各地事業(yè)單位的“錄

標簽：

數(shù)字人
來到IPO關口，地平線離“三分天下”還有多遠？

黑芝麻智能敲鐘后，港交所門口又有一些智駕芯片企業(yè)引發(fā)關注。據(jù)悉，近日地平線已通過中國證監(jiān)會IPO備案，擬發(fā)行不超過11.5億股境外上市普通股并在香港聯(lián)合交易所上市，預計籌集約5億美元資金。從天眼查可以了解到，該公司成立于2015年，是一家乘用車高級輔助駕駛（ADAS）和高階自動駕駛（AD）解決方案供
對標GPT-4o，科大訊飛正以大模型重塑語音產(chǎn)業(yè)

大模型的創(chuàng)新與未來

標簽：

科大訊飛
機器人大會引領產(chǎn)業(yè)動向，卓翼飛思繪制無人系統(tǒng)教科研新藍圖

8月21日，萬眾矚目的2024世界機器人大會暨博覽會在北京亦創(chuàng)國際會展中心盛大開幕。這場為期5天，集“展覽”“論壇”“賽事”于一體的機器人盛會，反映了當下機器人領域的繁榮生態(tài)。據(jù)官方統(tǒng)計數(shù)據(jù)，今年現(xiàn)場逛展觀眾高達25萬人次，比去年增加25%。機器人行業(yè)有多火?看看2024世界機器人大會火爆程度便可知

加載更多

語音助手鏖戰(zhàn)“全雙工”，車載會是一個好場景嗎？

相關文章

匯聚中國AI頂尖力量云天勵飛參與華為AI大模型聯(lián)合創(chuàng)新

用友大易：邁入AI招聘2.0時代，讓人力資源回歸本質(zhì)

新發(fā)布的PaaS2.0，能否助力涂鴉智能再起飛？

大模型難掩AI制藥的悲傷：越過山丘，無人等候

拾起王慧文的AI夢，美團沖向“光年之外”？

庫克已納投名狀：蘋果AI沒得選，只能選百度

AI加速時代的“進度條”，我們撥動了百分之幾？

AI視頻賽道，要變天了

“創(chuàng)造市場”與“算法進化”，中美AI競速的岔路口

智能體進化發(fā)展了一年，現(xiàn)在的RPA Agent迭代到什么程度了？

崔大寶：大模型降溫背后的難點、卡點、節(jié)點

這一屆“出道”的數(shù)字人，已經(jīng)拿捧上了“鐵飯碗”

來到IPO關口，地平線離“三分天下”還有多遠？

對標GPT-4o，科大訊飛正以大模型重塑語音產(chǎn)業(yè)

機器人大會引領產(chǎn)業(yè)動向，卓翼飛思繪制無人系統(tǒng)教科研新藍圖

熱門排行

編輯推薦

語音助手鏖戰(zhàn)“全雙工”，車載會是一個好場景嗎？

相關文章

熱門排行

編輯推薦

語音助手鏖戰(zhàn)“全雙工”，車載會是一個好場景嗎？