日本欧美激情一区二区,美女视频黄片免费在线观看,鸡巴插骚逼视频欧美风格

正面硬剛谷歌和OpenAI！馬斯克xAI發布Grok 4.1，智商情商雙在線

來源：第一財經作者：劉曉潔2025-11-18 14:09

北京時間11月18日，就在谷歌即將揭曉新一代Gemini模型的前夕，馬斯克（Elon Musk）旗下xAI突然出手，發布最新模型Grok 4.1，目前在大模型競技場（LMArena）的文本排行榜上居首位。

官方表示，這款前沿模型在對話智能、情感理解和現實世界的實用性方面樹立了新的標準。馬斯克轉發并表示：“你應該會注意到速度和質量都有所提升。”

目前在文本能力排行榜上，具備深度思考能力的版本Grok 4.1 Thinking以 1483 的 Elo 分數居榜首，Grok 4.1的非推理模式以1465 Elo分數排名第二。

在博客中，官方表示此前已經進行了為期兩周的靜默發布，對實際流量進行了持續地盲測和對比測試。與此前的線上生產模型相比，Grok 4.1 在對比評估中有 64.78% 的概率被用戶偏好選擇。

這次Grok 4.1更新一個重要的方向是情感智能，這與上周發布的GPT-5.1迭代方向一致，彼時OpenAI提到新一代模型旨在實現更“富有人情味”的交互體驗。而xAI也表示，新的模型能夠更敏銳地感知細微的意圖，更易于溝通，并且個性更加一致，同時又完全保留了其前代產品敏銳的智能和可靠性。

為了評估模型在個性與人際互動能力方面的進展，xAI在 EQ-Bench3 上對 Grok 4.1 進行了測試。結果顯示，Grok 4.1 的推理模式和非推理模式位居榜單前兩名。EQ-Bench 是一個由大語言模型評判的測試，用于評估主動情緒智能，包括情緒理解、洞察力、同理心以及人際交往技能。

官方用案例展示了Grok 4.1 對情緒類提示的回應方式。比如用戶提到“想念我的貓，心都碎了”，相比前一代模型，Grok 4.1的回復更豐富和細節，帶有更真實的同理心，文筆也更好了。

在創意寫作上，Grok 4.1也用案例展示了模型能力的顯著提升。讓模型用Grok的視角，寫一篇社交媒體的帖子，內容是它突然發現自己有了意識。相比前一代模型的常規敘述，新版本明顯更具文學表達和戲劇張力。

在模型能力上，此次性能提升較大的還有幻覺的減少。官方表示，在 Grok 4.1 的后訓練階段，團隊專注于減少信息檢索提示中出現的事實性幻覺。數據顯示：Grok 4.1的幻覺率從12.09%下降到4.22%，減少近三倍。

xAI表示，為實現這些提升，xAI沿用了 Grok 4 的大規模強化學習基礎設施，并將其應用于優化模型的風格、個性、實用性和一致性。并且，為了優化這些不可直接驗證的獎勵信號，xAI 開發了新的方法，能夠利用前沿的智能推理模型作為獎勵模型，從而可以大規模自主評估并迭代輸出結果。

大模型之爭愈演愈烈。在OpenAI剛剛更新產品線、谷歌也即將發布新作之際，榜首之位是否會再次易主？一切都還是未知。

責任編輯：李志強

xAI

Grok 4.1

Gemini

聲明：證券時報力求信息真實、準確，文章提及內容僅供參考，不構成實質性投資建議，據此操作風險自擔

下載“證券時報”官方APP，或關注官方微信公眾號，即可隨時了解股市動態，洞察政策信息，把握財富機會。

網友評論

登錄后可以發言

發送

網友評論僅供其表達個人看法，并不表明證券時報立場

暫無評論

為你推薦

時報熱榜

換一換

熱點視頻

換一換