近日,聲網與RTE開發者社區聯合主辦的 Convo AI & RTE 2025 第十一屆實時互聯網大會在北京舉行,本屆大會以“AI 有聲”為主題,重點聚焦實時互動(RTE)與對話式 AI (Convo AI)深度融合的新場景、新架構與新機遇。
資料顯示,RTE(Real-Time Engagement)指實時互動技術,正廣泛應用于直播、電競、遠程辦公、在線教育、IoT、元宇宙。實時互動指在遠程條件下溝通、協作的多方能夠隨時隨地接入、實時傳遞、虛實融合的多維信息,并體驗身臨其境的交互活動。
在今年的RTE 2025實時互聯網大會開場演講中,聲網創始人兼CEO趙斌表示,聲網年度服務分鐘數首次突破1萬億分鐘,標志著RTE技術已成為不可或缺的關鍵基礎設施。與此同時,視頻高清化比例在過去兩年增長超過10倍,海外市場720p以上分辨率流量占比已超80%,WebRTC全球搜索熱度呈現爆發式增長,標志著實時互動行業正迎來新一輪創新熱潮。
然而,在基礎設施日趨完善的同時,產業依然面臨著從“連通”到“對話”的本質挑戰。當交互對象從“人與人”擴展到“人與AI”,實時互動在環境感知與交互自然度上仍存在明顯缺陷。行業數據顯示,僅21%的用戶對現有AI對話體驗滿意,部分服務的用戶流失率高到“不可接受”。要實現真正的“類人對話”,企業必須系統性攻克低延遲響應、自然打斷、上下文管理、情感理解與表達等復雜挑戰。
多模態大語言模型(LLM)的出現讓計算機具備了類人的實時語音對話能力,為解決這些挑戰帶來了全新路徑。趙斌表示,對話式AI正驅動RTE從能夠“正常對話”到 “聲情并茂”的關鍵躍遷,為RTE行業帶來一個不可估量的全新市場。
第三方機構Deepgram和Opus Research調研顯示,67%的企業已將語音AI智能體置于戰略核心位置,84%的企業計劃在未來一年增加相關投入。在開發者生態中,對話式AI與語音智能體創業公司呈現爆發式增長態勢。數據顯示,聲網對話式AI 相關用量在2025年第三季度實現151%的環比增長。
在眾多應用場景中,對話式AI將在情感陪伴、智能硬件、在線教育三大場景中率先實現規模化落地。在大會現場,趙斌演示了AI客服的功能,展現了當前對話式AI在實時交互與場景理解方面取得的突破性進展。
此前在2025世界人工智能大會(waic)上,聲網正式發布新版對話式AI引擎,該版本新增聲紋識別、數字人與視覺理解三項功能,實現對話式AI音視頻交互體驗的全新升級。
為幫助企業和開發者把握這一機遇,聲網在大會上正式發布了《2025對話式AI發展白皮書》及《對話式AI好奇者手冊》,為行業提供了一套系統的實踐指南。同時,聲網推出了對話式AI引擎2.0,對話式AI開發套件、對話式AI模型評測平臺和對話式AI Studio,加速對話式AI在實時互動行業的應用創新。