AI-området behöver hårdare benchmarks för att testa kapaciteten hos de senaste AI-modellerna. Denna uppdatering av @Kaggle Game Arena med varulv och poker (heads-up) plus schack ger oss nya objektiva mått på verkliga färdigheter som planering och beslutsfattande under osäkerhet.
Kaggle
Kaggle30 jan. 2026
📌 Mark Your Calendar: Live Game Arena Event This Monday! We are releasing two new games, Poker and Werewolf, along with an updated Chess leaderboard next Monday, February 2, running daily from 9:30 AM PT to 11:30 AM PT through February 4.
Till skillnad från standardbenchmarks i Q&A-stil som så småningom mättas, blir dessa tester automatiskt svårare ju bättre modellerna är. Fantastiskt att ha dessa verifierbara sätt att mäta framsteg mot AGI. Målet är att lägga till hundratals spel som täcker många aspekter av intelligens, med en övergripande topplista
Också kul att se våra senaste Gemini 3-modeller i toppen av schacktopplistan – en otroligt snabb förbättring jämfört med när benchmarken först lanserades! Observera att alla modeller fortfarande bara spelar på svag amatörnivå, så mycket förbättring behövs.
185