Lançamento da linha Qwen3.5 da Alibaba com desempenho superior em raciocínio multimodal

A Alibaba lançou recentemente a nova linha de modelos Qwen3.5, que inclui variantes como Qwen3.5-35B-A3B, 27B, 122B-A10B e 397B-A17B, além da nova série Small: Qwen3.5-0.8B, 2B, 4B e 9B. Esses modelos são projetados para oferecer desempenho superior em tarefas de raciocínio multimodal e suportam um contexto de 256K em 201 idiomas, destacando-se em codificação, visão, chat e tarefas de longo contexto.

Os modelos Qwen3.5-35B e 27B requerem dispositivos com 22GB de RAM. A empresa destacou que todos os uploads utilizam o Unsloth para desempenho de quantização de ponta, permitindo que as versões de 4 bits tenham camadas importantes convertidas para 8 ou 16 bits. Os usuários podem ativar ou desativar o modo de raciocínio, que está desativado por padrão nas versões Small.

Em termos de requisitos de hardware, a tabela de inferência revela as necessidades em relação à memória total (RAM + VRAM). Por exemplo, os modelos de 3 bits podem ser utilizados em sistemas com 192GB de RAM. Já a versão de 4 bits, que utiliza a quantização dinâmica do Unsloth, tem um tamanho de arquivo em disco de aproximadamente 214GB, sendo compatível com sistemas de 256GB.

A empresa recomenda que, entre os modelos 27B e 35B-A3B, os usuários escolham o 27B para resultados ligeiramente mais precisos em dispositivos com capacidade limitada. Para configurações ideais, o comprimento máximo do contexto é de 262.144, que pode ser estendido para 1M através do YaRN.

O Qwen3.5-397B-A17B compete em termos de desempenho com outros modelos de ponta, como Gemini 3 Pro e GPT-5.2. A Alibaba disponibilizou instruções detalhadas para o uso dos modelos, incluindo a configuração de parâmetros para tarefas específicas, como tarefas de codificação precisa e raciocínio geral.

A linha Qwen3.5 também oferece tutoriais de inferência, utilizando variantes de 4 bits para cargas de trabalho. As instruções incluem a obtenção do código mais recente do llama.cpp e a configuração necessária para executar os modelos localmente. Com o uso do Unsloth e a quantização dinâmica, a Alibaba afirma que é possível obter um desempenho ideal em dispositivos com diferentes capacidades de RAM.

Os benchmarks recentes mostram que os modelos Qwen3.5-35B e 397B-A17B mantêm uma taxa de precisão de 81,3%, com variações mínimas em relação aos pesos originais. As versões quantizadas demonstram resultados comparáveis, permitindo uma redução significativa na utilização de memória sem perda prática de desempenho nas tarefas avaliadas.