- +1
別讓“3秒遲疑”毀掉AI的未來:RTE如何成為具身智能的“神經(jīng)系統(tǒng)”?
試想一個(gè)場景:一個(gè)高度精密的具身智能機(jī)器人,它擁有完美的機(jī)械結(jié)構(gòu)和運(yùn)動(dòng)能力,但當(dāng)你向它發(fā)出指令時(shí),它卻需要三秒鐘的“思考”才能回應(yīng);或者,它無法分辨你是在對(duì)它說話,還是在對(duì)客廳的電視說話。這個(gè)場景的“失真感”揭示了一個(gè)冰冷的現(xiàn)實(shí):再強(qiáng)大的大模型“大腦”,如果缺少了實(shí)時(shí)、自然、情境感知的“神經(jīng)系統(tǒng)”,就永遠(yuǎn)無法真正融入人類世界。
這種“實(shí)時(shí)交互”的瓶頸,正成為人工智能走向普適應(yīng)用的核心矛盾。
而這個(gè)矛盾,卻意外地讓一個(gè)一度被認(rèn)為“流量見頂”的賽道——RTE(Real-Time Engagement,實(shí)時(shí)互動(dòng))重新站上了風(fēng)口浪尖。在近日的聲網(wǎng)Convo AI & RTE 2025大會(huì)上,聲網(wǎng)創(chuàng)始人兼CEO趙斌的演講中暗示:RTE行業(yè)殘酷的“中場戰(zhàn)事”已經(jīng)結(jié)束,而以對(duì)話式AI為核心的“下半場”,才剛剛鳴哨。

“死水”下的暗涌:RTE的中場戰(zhàn)事與AI的“引爆點(diǎn)”
回顧RTE行業(yè)的過去五年,可謂一言難盡。趙斌在演講中并未回避行業(yè)的窘境。疫情帶來的爆發(fā)式增長過后,WebRTC的全球流量曲線一度陷入了“波瀾不驚,甚至死水奔騰”的狀態(tài)。
與此同時(shí),行業(yè)競爭格局急劇收縮。時(shí)間倒回至2020年前后,全球RTE賽道上曾涌現(xiàn)出超過50家廠商。而到今天,“已經(jīng)寥寥無幾”。一些行業(yè)巨頭也明顯減少了投入,甚至有巨頭的相關(guān)SDK功能被下架。RTE似乎正在淪為一個(gè)高度同質(zhì)化、依賴價(jià)格戰(zhàn)的純基礎(chǔ)設(shè)施(IaaS)“管道”。
這是RTE的終局嗎?
一個(gè)戲劇性的轉(zhuǎn)折點(diǎn)發(fā)生在2025年的8月。趙斌展示的數(shù)據(jù)顯示,WebRTC的全球搜索量突然出現(xiàn)了一個(gè)“前所未有的暴漲”,其熱度甚至遠(yuǎn)超疫情初期的峰值。

引爆點(diǎn),正是對(duì)話式AI。
“這個(gè)新物種的到來,必然引起實(shí)時(shí)互動(dòng)領(lǐng)域的一個(gè)新的創(chuàng)新熱。”趙斌強(qiáng)調(diào)。如今行業(yè)開始意識(shí)到,要實(shí)現(xiàn)真正“對(duì)話”的AI,過去用于視頻會(huì)議的WebRTC,遠(yuǎn)比僅用于推送消息的WebSocket是更優(yōu)的通訊標(biāo)準(zhǔn)。
這標(biāo)志著RTE的價(jià)值邏輯正在發(fā)生根本性轉(zhuǎn)變。它不再只是“人與人”的連接管道,更開始成為“人與AI”交互的必要通路。
AI的“社交尷尬”:從7%到100%的交互鴻溝
對(duì)話式AI的潛力毋庸置疑,但它的現(xiàn)狀卻充滿了“社交尷尬”。
趙斌在演講中生動(dòng)地描繪了當(dāng)下AI的“真實(shí)現(xiàn)狀”。今天的AI,更像一個(gè)“書呆子”。你問它一個(gè)問題,它無法像正常人一樣干脆利落地回答,而是“引經(jīng)據(jù)典”地給你一大串學(xué)術(shù)回復(fù)。
而在實(shí)際的應(yīng)用場景當(dāng)中,AI的“引經(jīng)據(jù)典”式回復(fù),并不利于用戶更為直接地接受答案,也讓AI走向場景的“最后一公里”充滿了阻力。

這種體驗(yàn)的背后,是著名的“7-38-55”傳播定律在起作用。趙斌指出,在人類對(duì)話中,真正的內(nèi)容(語言文字)只占7%,而38%的信息來自語氣、語速、語調(diào),55%來自表情和肢體語言。
今天所有的大模型,幾乎都還停留在7%的“內(nèi)容級(jí)別”對(duì)話上。它們能“聽懂”文字,卻無法“感知”情緒。
這就是RTE“下半場”需要解決的核心問題:如何讓AI從“內(nèi)容對(duì)話”走向“生情并茂的交流”?
這需要一個(gè)遠(yuǎn)超LLM本身的復(fù)雜技術(shù)棧。AI不僅要聽清(降噪、回聲消除),還要理解“誰在說”(聲紋識(shí)別、遠(yuǎn)近場判斷),判斷“何時(shí)說”(基于延遲的打斷與搶麥),并感知“怎么說”(情緒、韻律)。
這套技術(shù)棧,恰恰是RTE廠商過去十年賴以生存的“核心壁壘”。
聲網(wǎng)的“解題思路”:從“管道工”到“AI神經(jīng)系統(tǒng)架構(gòu)師”
如果說RTE的“上半場”是解決全球網(wǎng)絡(luò)的“通達(dá)”問題,那么“下半場”就是解決AI交互的“感知”問題。趙斌的演講,實(shí)際上完整展示了聲網(wǎng)如何基于自身優(yōu)勢,構(gòu)建這套“AI神經(jīng)系統(tǒng)”的路徑。
這條路徑可以拆解為三個(gè)層次:
1. 堅(jiān)實(shí)的“舊基建”:音視頻的極致體驗(yàn)
在AI時(shí)代之前,聲網(wǎng)就已在音視頻體驗(yàn)上投入重兵。例如,其AI降噪能智能過濾非人聲,保障“有效”信息的傳入;其自研的AI編碼器,在同等算力消耗下,對(duì)比X264能減少42%的編碼率,這直接推動(dòng)了720P以上的高清視頻在海外直播間占比超過80%。
沒有這種高質(zhì)量的“信號(hào)”輸入,AI的“大腦”再聰明也無濟(jì)于事。
2. 核心的“新引擎”:Agora-LLM-Framework
這是聲網(wǎng)應(yīng)對(duì)AI挑戰(zhàn)的核心技術(shù)答案。趙斌特別強(qiáng)調(diào),這是一個(gè)基于大模型底層的框架,它追求的是高效率、高并發(fā)和深度的平臺(tái)結(jié)合能力。
這個(gè)框架的定位,是對(duì)話式AI的“編排層”或“中樞神經(jīng)”。它負(fù)責(zé)連接LLM(大腦)、RTE網(wǎng)絡(luò)(傳輸)和音視頻處理(感官),解決AI交互中的上下文管理、多輪對(duì)話流轉(zhuǎn)、以及實(shí)時(shí)性能問題。與傳統(tǒng)解決方案只是做聲音交互的處理“管道”不同,聲網(wǎng)的方式,更像是要成為AI交互的“調(diào)度中心”。
3. 完整的“工具鏈”:Convo AI 2.0與生態(tài)
在引擎之上,聲網(wǎng)推出了Convo AI 2.0產(chǎn)品套件。它直接針對(duì)AI的“書呆子”問題,提供了對(duì)話上下文管理、聲學(xué)特征處理、自然度管理等功能。
同時(shí),他們推出了“AI評(píng)測平臺(tái)”和“對(duì)話式AI Studio”。前者幫助開發(fā)者在眾多模型中選擇響應(yīng)最快、效果最好的組合;后者則降低了AI應(yīng)用的開發(fā)門檻。

聲網(wǎng)的策略是清晰的:以RTE的音視頻處理能力為“底座”,以Agora-LLM-Framework框架為“引擎”,以Convo AI 2.0和工具鏈為“抓手”,幫助開發(fā)者快速構(gòu)建真正“可用”而非“可演示”的AI應(yīng)用。
RTE正成為AI的“第四種”基礎(chǔ)設(shè)施”
當(dāng)AI學(xué)會(huì)“說話”,它將撬動(dòng)多大的市場?
趙斌在演講中描繪了幾個(gè)確定性極高的爆發(fā)領(lǐng)域。首先是AI陪伴,這個(gè)賽道有潛力從幾十億美元增長至千億美元級(jí)別。其次,在客服、教育、游戲NPC、專業(yè)助理(如醫(yī)療)等領(lǐng)域,對(duì)話式AI正在全面滲透。
更有趣的判斷,來自于對(duì)“AI硬件”形態(tài)的思考。
下一個(gè)“iPhone時(shí)刻”會(huì)是什么?趙斌認(rèn)為,主流形態(tài)很可能不是一個(gè)全新的計(jì)算設(shè)備,而是以智能眼鏡、耳機(jī)、手表、戒指等“自然佩戴”的設(shè)備形態(tài)出現(xiàn)。AI助理將“無處不在”,你使用什么設(shè)備,它就出現(xiàn)在什么設(shè)備上。
這對(duì)RTE提出了極高的要求:必須具備跨平臺(tái)、低功耗、高并發(fā)的運(yùn)行能力。
但一個(gè)更具“戲劇性沖突”的未來是,為了提供極致的個(gè)性化助理服務(wù),可能會(huì)出現(xiàn)一種“7x24小時(shí)”的個(gè)人設(shè)備,像“行車記錄儀”一樣,持續(xù)收集你所處的環(huán)境和經(jīng)歷的事件,以便“比你更了解你”。
“這一點(diǎn),我相信也會(huì)越來越多地比它更大的,對(duì)于數(shù)據(jù)安全和個(gè)人數(shù)據(jù)所有權(quán)以及控制權(quán)的關(guān)注。”趙斌冷靜地指出。他甚至預(yù)言,未來兩三年,AI的發(fā)展也會(huì)逐步翻山對(duì)于欺詐或隱私安全事件的防范,從而重塑行業(yè)的監(jiān)管環(huán)境。
無論是哪種未來,RTE的價(jià)值都已今非昔比。
從CDN(內(nèi)容分發(fā)),到通用的計(jì)算(CPU),再到AI訓(xùn)練的算力(GPU),而下一個(gè)演進(jìn)方向,必然是支持實(shí)時(shí)AI編排的基礎(chǔ)設(shè)施。
對(duì)話式AI的爆發(fā),正在將RTE從一個(gè)“可選”的通信模塊,推向了AI時(shí)代“必選”的基礎(chǔ)設(shè)施。RTE行業(yè)的中場戰(zhàn)事或許已經(jīng)結(jié)束,但一個(gè)由AI開啟、關(guān)乎“感知”與“交互”的宏大下半場,正徐徐展開。
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場,澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司




