北京時間11月18日,就在谷歌即將揭曉新一代Gemini模型的前夕,馬斯克(Elon Musk)旗下xAI突然出手,發布最新模型Grok 4.1,目前在大模型競技場(LMArena)的文本排行榜上居首位。
官方表示,這款前沿模型在對話智能、情感理解和現實世界的實用性方面樹立了新的標準。馬斯克轉發并表示:“你應該會注意到速度和質量都有所提升。”

目前在文本能力排行榜上,具備深度思考能力的版本Grok 4.1 Thinking以 1483 的 Elo 分數居榜首,Grok 4.1的非推理模式以1465 Elo分數排名第二。
在博客中,官方表示此前已經進行了為期兩周的靜默發布,對實際流量進行了持續地盲測和對比測試。與此前的線上生產模型相比,Grok 4.1 在對比評估中有 64.78% 的概率被用戶偏好選擇。
這次Grok 4.1更新一個重要的方向是情感智能,這與上周發布的GPT-5.1迭代方向一致,彼時OpenAI提到新一代模型旨在實現更“富有人情味”的交互體驗。而xAI也表示,新的模型能夠更敏銳地感知細微的意圖,更易于溝通,并且個性更加一致,同時又完全保留了其前代產品敏銳的智能和可靠性。
為了評估模型在個性與人際互動能力方面的進展,xAI在 EQ-Bench3 上對 Grok 4.1 進行了測試。結果顯示,Grok 4.1 的推理模式和非推理模式位居榜單前兩名。EQ-Bench 是一個由大語言模型評判的測試,用于評估主動情緒智能,包括情緒理解、洞察力、同理心以及人際交往技能。
官方用案例展示了Grok 4.1 對情緒類提示的回應方式。比如用戶提到“想念我的貓,心都碎了”,相比前一代模型,Grok 4.1的回復更豐富和細節,帶有更真實的同理心,文筆也更好了。

在創意寫作上,Grok 4.1也用案例展示了模型能力的顯著提升。讓模型用Grok的視角,寫一篇社交媒體的帖子,內容是它突然發現自己有了意識。相比前一代模型的常規敘述,新版本明顯更具文學表達和戲劇張力。

在模型能力上,此次性能提升較大的還有幻覺的減少。官方表示,在 Grok 4.1 的后訓練階段,團隊專注于減少信息檢索提示中出現的事實性幻覺。數據顯示:Grok 4.1的幻覺率從12.09%下降到4.22%,減少近三倍。
xAI表示,為實現這些提升,xAI沿用了 Grok 4 的大規模強化學習基礎設施,并將其應用于優化模型的風格、個性、實用性和一致性。并且,為了優化這些不可直接驗證的獎勵信號,xAI 開發了新的方法,能夠利用前沿的智能推理模型作為獎勵模型,從而可以大規模自主評估并迭代輸出結果。
大模型之爭愈演愈烈。在OpenAI剛剛更新產品線、谷歌也即將發布新作之際,榜首之位是否會再次易主?一切都還是未知。