Apresentando o Code Review Bench v0:
O primeiro benchmark independente de revisão de código. Mais de 200.000 PRs. Imparcial. Totalmente OSS. Atualizado diariamente.
Destaques de desempenho da ferramenta 🧵👇
Apresentando: @augmentcode @baz_scm @claudeai @coderabbitai @cursor @GeminiApp @github @graphite @greptile @kilocode @OpenAIDevs @propelcode @QodoAI
Anunciando o ARES - nossa suíte de Pesquisa e Avaliação Agentic de código aberto.
O ARES é construído em torno de 3 pilares (👇 veja o tópico) para facilitar o aprendizado por reforço para agentes de código.
Também descobrimos que é incrivelmente útil para nossa própria pesquisa em interpretação mecânica.
$1,000,000 para entender como os LLMs escrevem código.
Anunciando: O Desafio de Interpretabilidade Marciana.
Compreender o funcionamento interno dos LLMs é o maior desafio científico da nossa era,. Vamos resolvê-lo.
Candidate-se aqui:
🧵👇