Het AI-veld heeft behoefte aan strengere benchmarks om de capaciteiten van de nieuwste AI-modellen te testen. Deze update voor @Kaggle Game Arena met weerwolf en poker (heads-up) plus schaken, biedt ons nieuwe objectieve maatstaven voor vaardigheden in de echte wereld zoals planning en besluitvorming onder onzekerheid.
Kaggle
Kaggle30 jan 2026
📌 Mark Your Calendar: Live Game Arena Event This Monday! We are releasing two new games, Poker and Werewolf, along with an updated Chess leaderboard next Monday, February 2, running daily from 9:30 AM PT to 11:30 AM PT through February 4.
In tegenstelling tot standaard Q&A-stijl benchmarks die uiteindelijk verzadigen, worden deze tests automatisch moeilijker naarmate de modellen beter worden. Geweldig om deze verifieerbare manieren te hebben om vooruitgang richting AGI te meten. Het doel is om honderden spellen toe te voegen die veel aspecten van intelligentie dekken, met een algemene ranglijst.
Ook leuk om onze nieuwste Gemini 3-modellen bovenaan de schaakranglijst te zien - ongelooflijk snelle verbetering sinds de benchmark voor het eerst werd gelanceerd! Let op dat alle modellen nog steeds alleen op zwak amateur niveau spelen, dus er is veel verbetering nodig.
182