
A Alibaba lançou recentemente a nova linha de modelos Qwen3.5, que inclui variantes como Qwen3.5-35B-A3B, 27B, 122B-A10B e 397B-A17B, além da nova série Small: Qwen3.5-0.8B, 2B, 4B e 9B. Esses modelos são projetados para oferecer desempenho superior em tarefas de raciocínio multimodal e suportam um contexto de 256K em 201 idiomas, destacando-se em codificação, visão, chat e tarefas de longo contexto.
Os modelos Qwen3.5-35B e 27B requerem dispositivos com 22GB de RAM. A empresa destacou que todos os uploads utilizam o Unsloth para desempenho de quantização de ponta, permitindo que as versões de 4 bits tenham camadas importantes convertidas para 8 ou 16 bits. Os usuários podem ativar ou desativar o modo de raciocínio, que está desativado por padrão nas versões Small.
Em termos de requisitos de hardware, a tabela de inferência revela as necessidades em relação à memória total (RAM + VRAM). Por exemplo, os modelos de 3 bits podem ser utilizados em sistemas com 192GB de RAM. Já a versão de 4 bits, que utiliza a quantização dinâmica do Unsloth, tem um tamanho de arquivo em disco de aproximadamente 214GB, sendo compatível com sistemas de 256GB.
A empresa recomenda que, entre os modelos 27B e 35B-A3B, os usuários escolham o 27B para resultados ligeiramente mais precisos em dispositivos com capacidade limitada. Para configurações ideais, o comprimento máximo do contexto é de 262.144, que pode ser estendido para 1M através do YaRN.
O Qwen3.5-397B-A17B compete em termos de desempenho com outros modelos de ponta, como Gemini 3 Pro e GPT-5.2. A Alibaba disponibilizou instruções detalhadas para o uso dos modelos, incluindo a configuração de parâmetros para tarefas específicas, como tarefas de codificação precisa e raciocínio geral.
A linha Qwen3.5 também oferece tutoriais de inferência, utilizando variantes de 4 bits para cargas de trabalho. As instruções incluem a obtenção do código mais recente do llama.cpp e a configuração necessária para executar os modelos localmente. Com o uso do Unsloth e a quantização dinâmica, a Alibaba afirma que é possível obter um desempenho ideal em dispositivos com diferentes capacidades de RAM.
Os benchmarks recentes mostram que os modelos Qwen3.5-35B e 397B-A17B mantêm uma taxa de precisão de 81,3%, com variações mínimas em relação aos pesos originais. As versões quantizadas demonstram resultados comparáveis, permitindo uma redução significativa na utilização de memória sem perda prática de desempenho nas tarefas avaliadas.
Confira os últimos vídeos publicados no canal