2021年,各種數(shù)字人開始出現(xiàn)在直播間、廣告畫面和影視短劇中,橫空出世的“柳夜熙”一度讓數(shù)字人成為風口。但在大模型出現(xiàn)之后,談?wù)撨@一概念的公司卻在減少,取而代之的是AI智能體、AI助手。
理論上來說,大模型的爆發(fā)實際上讓3D數(shù)字人擁有更強的對話能力,對其商業(yè)化應(yīng)用也會有所助力。但現(xiàn)實情況為何并非如此?
一位從事AI虛擬陪伴的創(chuàng)業(yè)者向界面新聞表示,市場上的數(shù)字人公司越來越少,核心原因在于沒有AI能力。尤其是在3D數(shù)字人領(lǐng)域,大模型的爆發(fā)實際上對公司提出了更高的要求。
中商產(chǎn)業(yè)研究院發(fā)布的報告顯示,2024年2D數(shù)字人落地較迅速,市場占比達到70.1%。3D數(shù)字人市場份額較小,占比29.9%。核心原因就在于,3D數(shù)字人仍受限于技術(shù)的迭代速度。
一位和多家數(shù)字人公司合作過的LED顯示屏廠商CEO向界面新聞表示,數(shù)字人行業(yè)存在一個現(xiàn)象:頭部公司產(chǎn)品優(yōu)秀,但整個行業(yè)產(chǎn)品質(zhì)量參差不齊,且GPU成本較高、服務(wù)不穩(wěn)定,難以實現(xiàn)7×24小時無差錯服務(wù)。
曾做出國風虛擬人“翎Ling”的3D數(shù)字人公司魔琺科技入局較早,是留在牌桌上的公司之一。對于行業(yè)的變化,魔琺科技創(chuàng)始人兼CEO柴金祥教授認為,很多公司之所以被淘汰,就是因為在AI大模型已經(jīng)規(guī)模化的時候,數(shù)字人的能力卻沒有匹配上大模型?!按竽P褪钦Z言能力,數(shù)字人是身體的能力,如果大腦很強,身體配不上,當然就沒有用?!辈窠鹣橹毖?,此前很多數(shù)字人公司沒有走AI研發(fā)的路線,能力也會相對受限。
柴金祥擁有美國卡內(nèi)基梅隆大學人工智能與機器人專業(yè)博士學位,二十多年前開始3D數(shù)字人相關(guān)研究。他在接受界面新聞采訪時表示,未來想要做好3D數(shù)字人,需要高質(zhì)量數(shù)據(jù)積累、稀缺人才儲備以及強大的美術(shù)能力等等。
但無論是在數(shù)據(jù)還是人才方面,數(shù)字人公司都存在一定瓶頸。例如在數(shù)據(jù)層面,目前文生圖片和視頻等數(shù)據(jù)已經(jīng)相對豐富,但涉及人體動作和環(huán)境交互的3D數(shù)據(jù)仍然較為稀缺,而大部分公司沒有積累數(shù)據(jù)的能力。此外,柴金祥提到,一直以來,做3D內(nèi)容和研究AI的人才就是“割裂”的,將兩種類型的人才聚集到一起也有難度。
大模型的爆發(fā)加速了行業(yè)的洗牌和分化。當下的一個趨勢是,3D數(shù)字人的制作開始向平臺化發(fā)展。
平臺化的前提是市場的接受程度。一位行業(yè)人士告訴界面新聞,目前很多提供數(shù)字人方案的公司,落地領(lǐng)域都集中在展館、文旅景區(qū)、教育培訓等場景,工具化的屬性更強。這離不開政策的加持——今年以來,各地發(fā)布鼓勵人工智能發(fā)展的戰(zhàn)略,促使很多機構(gòu)重視數(shù)字化的應(yīng)用。
更重要的是,AI技術(shù)的進步加速了整個產(chǎn)業(yè)鏈成本的降低,讓真正的規(guī)?;蔀榭赡?。
受限于質(zhì)量、成本、延時三個難題,以往3D數(shù)字人無法大規(guī)模應(yīng)用。但如今情況有所不同。IDC中國人工智能研究經(jīng)理程蔭在一份報告中表示,在生成式AI和大模型技術(shù)的驅(qū)動下,AI數(shù)字人的技術(shù)架構(gòu)升級:頭部廠商依托語義和垂直領(lǐng)域大模型,構(gòu)建起新一代數(shù)字人技術(shù)棧;多模態(tài)能力持續(xù)突破,表情生成、動作捕捉、語音合成、視覺理解等關(guān)鍵技術(shù)模塊通過超大規(guī)模預訓練,推動數(shù)字人在形象、交互和自主決策等方面的提升。此外,AI的普及,也降低了很多終端設(shè)備部署數(shù)字人的成本。
基于自主研發(fā)的文生多模態(tài)3D大模型及云-端協(xié)同架構(gòu),魔琺科技近期上線了具身智能3D數(shù)字人開放平臺,供開發(fā)者使用。根據(jù)魔琺科技的公開演示,開發(fā)者可以在3分鐘內(nèi)完成數(shù)字人接入。據(jù)界面新聞了解,目前這一開發(fā)平臺在數(shù)字人客服、培訓助手、導購等崗位實現(xiàn)應(yīng)用。
在2021年接受界面新聞采訪時,柴金祥就提到公司的發(fā)展方向是平臺化。但直到現(xiàn)在,技術(shù)條件才逐漸成熟。柴金祥認為,伴隨著智能化的升級,近幾年來AI已經(jīng)可以寫文章、編程序甚至做決策,并且可以調(diào)用各種API成為智能體,但AI依然缺少“身體”。按照他的判斷,有了大模型支撐下的“大腦”,3D數(shù)字人更大的市場是扮演白領(lǐng)的角色,而開放平臺可以成為基礎(chǔ)設(shè)施。
今年8月,聚焦數(shù)字人領(lǐng)域的影眸科技完成新一輪數(shù)千萬美金融資,宣布將在其3D生成平臺中上線百億參數(shù)級新模型。百度則在今年發(fā)布數(shù)字人技術(shù)nova,同樣往平臺化發(fā)展。
從進入大眾視野到成為風口,再到逐漸受到外界質(zhì)疑,數(shù)字人的商業(yè)模式始終是核心命題,但這不僅涉及技術(shù)的進步,還有倫理邊界。今年618期間,羅永浩數(shù)字人在百度電商開播,開播26分鐘的GMV超過真人帶貨1小時。但是從2024年開始,不同平臺已相繼發(fā)布規(guī)則進行監(jiān)管,數(shù)字人主播并未如想象中普及。
可以確定的是,更多開放平臺的出現(xiàn),將降低數(shù)字人制作的門檻。但數(shù)字人將如何在AI時代發(fā)揮作用,和諸多AI應(yīng)用的發(fā)展一樣尚無定論。