
Recentemente, realizamos uma série de testes com modelos populares de código aberto utilizando nosso benchmark de IDOR, com o mesmo conjunto de dados e o mesmo prompt que empregamos para avaliar agentes de codificação de ponta. O resultado foi surpreendente: o modelo GLM 5.2 da Zhipu AI, um modelo de pesos abertos, obteve uma pontuação de 39% no F1 para detecção de IDOR, superando Claude Code, que alcançou 32%, a um custo de aproximadamente $0.17 por vulnerabilidade encontrada. Apesar de ainda estar atrás do pipeline multimodal do Semgrep, que obteve entre 53% e 61% de F1, vale ressaltar que este último opera em um ambiente projetado especificamente para essa finalidade, realizando grande parte do trabalho pesado.
Nosso objetivo não era coroar um campeão de pesos abertos, mas sim responder uma pergunta mais específica: qual a contribuição do modelo para o desempenho na detecção de vulnerabilidades e quanto vem do suporte estrutural em torno dele? Para nós, do Semgrep, essa é uma questão crucial, especialmente ao conversarmos com clientes que utilizam agentes de IA em suas tarefas de segurança. O suporte, que chamamos de harness, é a estrutura que envolve o modelo, alimentando-o com o repositório, decidindo o que ele vê, analisando sua saída e organizando suas tarefas. Nossa solução interna multimodal foi testada anteriormente, visando a detecção de IDORs, que representam problemas de controle de acesso, como "acessar algo que pertence a outro usuário".
O GLM 5.2, que foi introduzido ao público em 13 de junho de 2026, possui três características que o tornam interessante para trabalhos de segurança. Primeiro, ele é um modelo de pesos abertos sob a licença MIT, permitindo que equipes de segurança o executem em seus próprios ambientes. Segundo, possui desempenho competitivo em codificação, sendo um modelo Mixture-of-Experts (MoE) com aproximadamente 750 bilhões de parâmetros, mas apenas cerca de 40 bilhões ativos por token, o que reduz os custos de inferência. Por último, o custo é um fator importante, com preços cerca de um sexto dos modelos de ponta comparáveis.
Durante os testes, mantivemos constantes o dataset de IDOR, o método de avaliação e o prompt do sistema IDOR, variando apenas o modelo e sua estrutura de suporte. O modelo Semgrep Multimodal foi testado em nosso harness personalizado, enquanto os modelos de pesos abertos, incluindo GLM 5.2, MiniMax M3 e Kimi K2.7, foram executados em um simples harness Pydantic, recebendo apenas o prompt de IDOR.
Os resultados foram intrigantes. Em termos de pontuação F1 para detecção de IDOR, o Semgrep Multimodal liderou com 61%, seguido por 53% do modelo Opus 4.8. O GLM 5.2 conseguiu surpreendentemente 39%, superando Claude Code, que obteve 32%. Essa performance de um modelo de pesos abertos, sem suporte estrutural, em uma tarefa de segurança que exige raciocínio, é notável. Além disso, a economia de custos para detecção pode ser decisiva para a escalabilidade de técnicas de segurança, considerando que a execução pode envolver milhares de endpoints.
Esses achados não apenas validam nossa abordagem, mas também oferecem um novo olhar sobre o potencial dos modelos de pesos abertos em ambientes de segurança.
Confira os últimos vídeos publicados no canal