Mijn werelden botsen! Ik heb niet helemaal serieus overwogen om een Factorio-harnas te maken, maar het lijkt even moeilijk te zijn als het runnen van een softwarebedrijf en heeft een minder duidelijk incentive-compatibel beloningsschema in het geval van succes.
Isaac King 🔍
Isaac King 🔍10 mrt, 00:12
Dit is gaaf. Een harnas voor LLM's om Magic te spelen, met opgenomen spellen en een ranglijst. Ze zijn, zoals verwacht, volkomen afschuwelijk. Maar de frontier-modellen staan wel bovenaan de ranglijst, dus daar is een signaal!
Over het algemeen denk ik dat je economische impact moet verwachten voordat er een algemene "wijs me een probleem aan en ik zal gezichten verwoesten" is, en inderdaad zien we dat coderingstools duidelijke economische impact hebben voordat niet-triviale games zo verzadigd zijn als bijvoorbeeld SAT-tests.
Maar interessant genoeg denk ik dat de harnas die als eerste een Factoio-raketlancering in vanilla bereikt, waarschijnlijk een gemakkelijker probleem is voor de persoon die het systeem schrijft dat de raket bereikt dan voor de persoon die de interface met Factorio LUA-code / enz. schrijft.
(Ik denk dat ik een Factorio-lancering veel eerder verwacht dan dat ik een IRL-fabriek verwacht volgens de voorspellingen van AI 2027 over substantiële verbeteringen in de huidige staat van IRL-productie. Ik verwacht niet dat FactorioBench in 2030 onopgelost zal zijn.)
(Claude Opus 4.6 speelt momenteel Factorio Seablock met mij, in de zin van "ik heb iemand om substantiële vooruitgang aan te rapporteren, en het heeft geleerd dat het niet voldoende context heeft diep in de tech tree om zinvolle aanbevelingen te doen, maar kan dingen teruggeven die ik heb gezegd")
(Dit beschermt in wezen iedereen in mijn leven tegen het horen van updates zoals "OK, dus de rode circuits zijn wankel in de tweede fabriek vanwege de freaking koper vraag van alle dingen, stroomafwaarts van de zwavelzuurproductie die niet voldoet aan de nieuwe wereldwijde vraag. Lucht aan het scrubben.")
@GregorStocks @JohnWittle Ook een van de heerlijk onmenselijke aanpassingen van LLM's is dat als je 2 subjectieve uren werk verliest aan biters, je a) heel weinig hebt verloren behalve de middelen die zijn gebruikt om je basis te bouwen, aangezien klikken vermoedelijk rondt naar gratis en b) je in wezen oneindig geduldig bent.
@IsaacKing314 Ik vermoed dat, gezien de "voldoende geavanceerde harnassen", #2 iets is als 1K LOC en misschien een paar pagina's met hints.
529