»

»

Code Reviews: Comparando Kody vs LLMs (GPT & Claude)
Índice:

Code Reviews: Comparando Kody vs LLMs (GPT & Claude)

Índice:

Nos últimos meses, a adoção de IDEs com IA explodiu – de repente, todo dev tem um “assistente” de IA no editor.

Só que, convenhamos, escrever código é a parte divertida.

Revisar código, nem tanto.

Aí bateu a dúvida: será que os grandes modelos de linguagem (LLMs) conseguem dar conta de revisar PRs sozinhos?

Testamos os clássicos (GPT-4o e Claude Sonnet 3.7) contra nosso pipeline, Kody, e este benchmark mostra o que rolou.

A Realidade de Revisões de Código Feitas por LLM

Deixar um LLM revisar seu código parece incrível… até perceber que eles podem ser bem “prolixos”.

Soltam um monte de informação extra – às vezes irrelevante ou até errada. Em resumo:

  • Treino em Código Imperfeito: LLMs aprendem de tudo: tanto código top quanto uns péssimos. Isso significa que podem absorver umas práticas questionáveis.
  • Ruído ao Invés de Sinal: Mesmo quando encontram um bug de verdade, te afogam em um mar de sugestões “mais ou menos”.
  • Lógica vs. Sintaxe: Mandam bem no syntax check, mas não entendem muito a lógica profunda do seu código. O ruído só piora as coisas, misturando um monte de comentário desnecessário.

 

TL;DR: Contar só com um LLM “puro” pode deixar seu code review bagunçado. Entra em cena o pipeline agente da Kody, que filtra esse barulho todo e entrega insights mais objetivos.

Como Montamos o Benchmark

Dataset

Pegamos 10 pull requests (PRs) de um repositório—(trabalho em andamento, viu?)—e rodamos três revisões diferentes em cada um:

  1. Kody
  2. Claude Sonnet 3.7
  3. OpenAI GPT-4o

Métricas

Analisamos:

  • True Positives (TP): Problemas reais que foram pegos.
  • False Positives (FP): Alertas que não eram problemas de verdade.
  • False Negatives (FN): Bugs que passaram batido.

Com isso, calculamos:

  • Precisão (Precision): Quão confiáveis são os alertas.
  • Cobertura (Recall): Quantos problemas reais foram detectados.
  • F1 Score: Combinação balanceada de precisão e cobertura (tudo em um número só).

Também checamos desvio padrão e coeficiente de variação (CV) pra ver se o modelo mantém consistência ou joga dados na hora de revisar.

O Que É o Coeficiente de Variação (CV)?

O CV basicamente mostra o quanto os resultados estão espalhados em relação à média, calculado assim:

CV = (Standard Deviation / Mean) × 100%

  • Sem Unidade: Dá pra comparar coisas de diferentes escalas sem bagunça.
  • CV Alto: Significa que seu modelo é mais inconstante que uma bolsa de criptomoedas.
  • Normalização: Coloca a variabilidade em perspectiva com a média.

Nossos Resultados (CV)

  • Kody (0,402): Bem consistente.
  • Claude (0,774): Meio indeciso.
  • GPT (1,651): Totalmente inconstante.

Guia Rápido:

    • CV < 0,15 → estável demais
    • 0,15–0,30 → variação moderada
    • 0,30 → segura na cadeira que vai balançar

Adicionando um Fator de Consistência

Pra ficar justo, mas sem perdoar tudo, aplicamos uma penalização de consistência (peso = 0,2) que reduz a pontuação se o modelo variar demais:

  • Kody: Score ajustado ~0,581 (redução de 8%)
  • Claude: ~0,283 (caiu uns 15,5%)
  • GPT: ~0,072 (levou uma surra de 33%)

Se quiser ser mais “bonzinho”, baixa o peso pra 0,1. Se quiser punir pesado, sobe pra 0,5. Escolhemos 0,2 porque equilibra penalizar a galera inconsistente sem anular o resto do desempenho.

Resultados

Bora ver o placar final:

  1. F1 Original

    • Kody: ~0,65
    • Claude: ~0,48
    • GPT: ~0,18
    • Kody é ~1,35× melhor que Claude e ~3,6× melhor que GPT.
  2. F1 Ajustado (DP)

    • Kody: ~0,60
    • Claude: ~0,40
    • GPT: ~0,15
    • Kody ~1,5× maior que Claude e ~4× maior que GPT.
  3. F1 Ajustado (CV)

    • Kody: ~0,58
    • Claude: ~0,28
    • GPT: ~0,07
    • Kody ~2,1× maior que Claude e ~8,3× maior que GPT.

Em resumo: Kody lidera no quesito consistência e performance. Claude fica no meio do caminho. GPT-4o, usado cru, oscila bastante e desce lá pra baixo.

Próximos Passos

Esse estudo tá só começando. A gente vai continuar avaliando mais PRs, mais linguagens, e talvez alguns modelos adicionais só pra ver se sobrou alguém que aguente o tranco. A ideia é evoluir sempre e trazer um panorama cada vez mais completo de como essas ferramentas se saem em cenários reais de code review.

Moral da história: LLMs sozinhos podem deixar teu review cheio de ruído. Kody veio pra separar o joio do trigo e entregar sugestões que realmente fazem diferença.

Publicado por:
Compartilhe:

Automatize seu Code Review utilizando IA

Posts relacionados

Nos últimos meses, a adoção de IDEs com IA explodiu – de repente, todo dev tem um “assistente” de IA no editor. Só que, convenhamos, escrever código é a parte

Nos últimos meses, a adoção de IDEs com IA explodiu – de repente, todo dev tem um “assistente” de IA no editor. Só que, convenhamos, escrever código é a parte

Nos últimos meses, a adoção de IDEs com IA explodiu – de repente, todo dev tem um “assistente” de IA no editor. Só que, convenhamos, escrever código é a parte