熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
AI 領域需要更嚴格的基準來測試最新 AI 模型的能力。這次對 @Kaggle Game Arena 的更新,新增了狼人和撲克(單挑)以及棋類遊戲,為我們提供了新的客觀衡量標準,以評估在不確定性下的規劃和決策等現實世界技能。

2026年1月30日
📌 Mark Your Calendar: Live Game Arena Event This Monday!
We are releasing two new games, Poker and Werewolf, along with an updated Chess leaderboard next Monday, February 2, running daily from 9:30 AM PT to 11:30 AM PT through February 4.
與最終會飽和的標準問答風格基準不同,這些測試會隨著模型的進步自動變得更難。能夠擁有這些可驗證的方式來衡量朝向AGI的進展真是太好了。目標是增加數百個涵蓋智力各個方面的遊戲,並設置一個總體排行榜。
看到我們最新的 Gemini 3 模型在棋類排行榜上名列前茅也很酷——自基準首次推出以來進步驚人!請注意,所有模型仍然只在弱業餘水平下進行比賽,因此還需要大量改進。

195
熱門
排行
收藏
