近日,高通公司宣布,推出面向數據中心的下一代AI推理優化解決方案:基于Qualcomm AI200與AI250芯片的加速卡及機架系統。高通稱,依托公司在NPU技術領域的優勢,這些解決方案提供機架級性能與卓越的內存容量,能夠以出色的每美元每瓦特的高性能賦能高速生成式AI推理,為推動各行業可擴展、高效率、高靈活性的生成式AI部署樹立重要里程碑。
據了解,Qualcomm AI200帶來專為機架級AI推理打造的解決方案,旨在為大語言模型(LLM)與多模態模型(LMM)推理及其他AI工作負載提供低總體擁有成本與優化性能。每張加速卡支持768GB LPDDR內存,實現更高內存容量與更低成本,為AI推理提供卓越的擴展性與靈活性。
Qualcomm AI250解決方案將首發基于近存計算(Near-Memory Computing)的創新內存架構,實現超過10倍的有效內存帶寬提升并顯著降低功耗,為AI推理工作負載帶來能效與性能的跨越性提升。該架構支持解耦式AI推理,實現硬件資源的高效利用,同時滿足客戶性能與成本需求。
兩款機架解決方案均支持直接液冷散熱,以提升散熱效率,支持PCIe縱向擴展與以太網橫向擴展,并具備機密計算,保障AI工作負載的安全性,整機架功耗為160千瓦。
高通公司高級副總裁兼技術規劃、邊緣解決方案和數據中心業務總經理馬德嘉表示,憑借Qualcomm AI200與AI250,高通正在重新定義機架級AI推理的可能性。這些創新的AI基礎設施解決方案能夠讓客戶以業界先進的總體擁有成本部署生成式AI,同時滿足現代數據中心對靈活性與安全性的要求?!拔覀儞碛胸S富的軟件棧與開放生態支持,能夠支持開發者和企業更加輕松地基于我們的優化AI推理解決方案,集成、管理并擴展完成訓練的AI模型?;谂c主流AI框架的無縫兼容性和一鍵模型部署功能,Qualcomm AI200與AI250旨在支持無縫應用與快速創新。”
此外,高通表示,超大規模級AI軟件棧,覆蓋從應用層到系統軟件層的全鏈路,專為AI推理優化。該軟件棧支持主流機器學習(ML)框架、推理引擎、生成式AI框架,以及解耦服務等LLM/LMM推理優化技術。開發者可通過高通技術公司的高效Transformer庫(Efficient Transformers Library)與 Qualcomm? AI Inference Suite,實現模型無縫接入及Hugging Face模型的一鍵部署。相關軟件則可提供開箱即用的AI應用與智能體、完善工具、庫、API接口及AI運營化服務。
據悉,Qualcomm AI200與AI250預計將分別于2026年和2027年實現商用。高通表示,未來,將致力于按照年度迭代節奏,持續推進公司數據中心產品技術路線圖,聚焦業界先進的AI推理性能、能效與總體擁有成本優勢。