Benchmark de ferramentas de Code Review com IA

Avaliamos a Kody e outras ferramentas de Code Review com IA nos mesmos PRs de 5 projetos open source. A ideia é te dar um panorama claro da qualidade das revisões de cada uma.

Como montamos esse benchmark

Usamos os mesmos repositórios públicos de um benchmark e adicionamos a Kody, nossa agente de code review. Para tornar a comparação relevante, analisamos apenas bugs de nível Critical, High e Medium.

Rodamos exatamente os mesmos PRs em quatro ferramentas de revisão por IA (Kodus, Coderabbit, GitHub Copilot e Cursor BugBot) sem qualquer tipo de configuração extra ou ajuste, justamente para não enviesar o resultado.

Todas foram avaliadas com o mesmo conjunto de dados, nas mesmas condições.

Sentry

Cal.com

Grafana

Discourse

Keycloak

Repositórios analisados

TL;DR

  • Em problemas de nível crítico, a Kodus (69%) e GitHub (62%) foram as que apresentaram melhor desempenho. Mesmo assim, os números mostram que ainda há bastante espaço para evolução nesse tipo de detecção.
  • Em problemas de alta severidade, a diferença entre as ferramentas ficou mais evidente. O Coderabbit teve seu pior resultado (31%), bem abaixo das demais. Cursor (50%) e Kodus (81%) se saíram melhor, mas ainda com variabilidade entre cenários.
  • Já nos problemas de média severidade, todas as ferramentas tiveram desempenho mais alto. A Kodus detectou 89% dos casos. O Cursor teve sua melhor performance nessa categoria, encontrando 67% dos bugs.

No geral, a Kodus foi a ferramenta mais consistente nas quatro categorias avaliadas (crítica, alta e média) identificando 79% dos bugs, enquanto as demais oscilaram mais dependendo do tipo de problema.

Não precisa confiar só na gente. Teste a Kody no seu próximo PR.

Configure em menos de 2 minutos — na nuvem ou self-host, sem precisar de cartão.