Leanstral: Agente de Código Open-Source para Engenharia de Provas

Agentes de IA têm se mostrado ferramentas poderosas na geração de código, mas, ao aplicá-los em áreas críticas, como matemática de pesquisa avançada e software essencial, enfrentamos um gargalo: a revisão humana. O tempo e a especialização necessários para verificar manualmente o código se tornaram os principais obstáculos à velocidade de engenharia.

Visando superar essa dificuldade, apresentamos o Leanstral, um agente de código open-source projetado para o Lean 4. Ele é capaz de expressar objetos matemáticos complexos e especificações de software. Ao contrário de sistemas de prova existentes, Leanstral foi desenvolvido para ser altamente eficiente, possuindo 6 bilhões de parâmetros ativos e treinado para operar em repositórios formais realistas.

"Com o Leanstral, o objetivo é permitir que humanos especifiquem o que desejam, ao invés de se envolverem na depuração de lógicas geradas automaticamente pela máquina", afirmam os desenvolvedores. O modelo foi liberado sob a licença Apache 2.0 e está disponível em modo agente dentro do Mistral Vibe, além de contar com um endpoint de API gratuito.

O Leanstral se destaca por sua arquitetura esparsa e otimização para tarefas de engenharia de provas. Usando a inferência paralela com o Lean como verificador ideal, ele se mostra tanto eficiente em desempenho quanto econômico em comparação a concorrentes fechados. Além disso, ele é compatível com MCPs arbitrários, tendo sido treinado para obter desempenho máximo com o lean-lsp-mcp, frequentemente utilizado.

Na avaliação, o Leanstral foi testado em cenários de engenharia de provas realistas, completando todas as provas formais e definindo corretamente novos conceitos matemáticos para o projeto FLT. Comparado a outros agentes de codificação, como Claude Opus 4.6 e Sonnet 4.6, o Leanstral mostrou-se superior em eficiência, alcançando uma pontuação de 26.3 com apenas duas passagens, enquanto seus concorrentes necessitaram de múltiplas passagens para pontuações inferiores.

Em comparação à família Claude, o Leanstral se apresenta como uma alternativa de alto valor, oferecendo desempenho competitivo a um custo muito menor. Por exemplo, seu custo de operação é de apenas $36, enquanto o Sonnet custa $549 e o Claude Opus 4.6 chega a $1,650.

Um dos casos de uso do Leanstral envolveu responder perguntas do Stack Exchange sobre mudanças na nova versão do Lean. O modelo diagnosticou com sucesso um problema em um script que parou de compilar e sugeriu uma solução eficaz, demonstrando sua capacidade de lidar com situações do mundo real.

Além disso, o Leanstral demonstrou habilidade ao converter definições de um código em Rocq para Lean, provando propriedades de programas a partir de declarações simples. Essa versatilidade destaca a capacidade do modelo em implementar notações personalizadas e raciocinar sobre programas.

O Leanstral já está disponível para uso imediato. Usuários podem acessá-lo diretamente através do Mistral Vibe ou por meio de um endpoint de API gratuito. Com a documentação acessível, todos podem experimentar as potencialidades deste novo agente de código.