
Este é o vigésimo segundo post da série Fastmail Advent 2024. O post anterior foi no dia 21 de dezembro: Fastmail In A Box. Confira amanhã para mais um post.
Nos últimos tempos, tem-se discutido sobre a repatriação da nuvem, onde várias empresas estão transferindo suas operações do ambiente de nuvem para servidores locais, com alguns exemplos bastante notáveis.
A Fastmail possui uma longa trajetória de uso de hardware próprio, acumulando mais de duas décadas de experiência em otimização de sistemas para operar de forma eficiente com nossos próprios servidores. Essa experiência nos permite uma otimização de custos muito superior em comparação ao movimento total para a nuvem.
"Compreendemos muito bem nossos padrões de uso a curto, médio e longo prazo, além de nossas necessidades e crescimento. Isso nos permite planejar aquisições de hardware com antecedência, sem depender da escalabilidade dinâmica que a nuvem oferece", afirmam os representantes da Fastmail.
Nos últimos 25 anos, passamos por diversas mudanças de hardware. Durante muito tempo, nossa plataforma de armazenamento de servidores IMAP consistiu em uma combinação de discos rígidos e controladores RAID ARECA. Usávamos discos SAS de 15k RPM em RAID1 para metadados e discos SATA de 7.2k RPM em RAID6 para dados de e-mail.
Recentemente, fizemos nossa maior atualização de hardware: migramos todos os nossos servidores de e-mail para uma nova plataforma AMD de 2U com SSDs NVMe puros. A densidade e o aumento de desempenho foram enormes, superando nossas expectativas iniciais. No entanto, na época, os controladores RAID NVMe não eram amplamente disponíveis. Consideramos um setup sem RAID utilizando SSDs em cada máquina com replicação de nível de aplicação, mas as mudanças de software se mostraram mais complexas do que esperávamos.
Decidimos testar o sistema de arquivos ZFS, que, apesar de algumas estruturas de banco de dados do cyrus não serem ideais para as semânticas de cópia-em-escrita do ZFS, se mostraram incrivelmente rápidas em todas as operações de entrada e saída. Ao implementar o ZFS, também habilitamos compressão Zstandard, resultando em uma economia de espaço de cerca de 40% em nossos dados de e-mail.
Com o tempo, realizamos cálculos adicionais para otimizar ainda mais os parâmetros do ZFS. Analisamos 1 milhão de e-mails aleatórios e calculamos os blocos necessários para armazená-los, tanto sem compressão quanto com diferentes tamanhos de bloco e opções de compressão. "Os resultados mostraram que o tamanho de registro padrão de 128k e a compressão zstd-3 já eram bastante bons", comentam os engenheiros da empresa.
Após nossa experiência positiva inicial, decidimos adotar completamente o ZFS para todas as nossas necessidades de armazenamento de dados. Nos últimos três anos, temos utilizado ZFS em nossos servidores de e-mail e também migramos nossos servidores de banco de dados, logs e backups para usar NVMe SSDs com resultados igualmente satisfatórios.
Os SSDs têm uma vida útil limitada e um número finito de gravações. Após anos de operação, coletamos dados que indicam que, de um dos nossos servidores, a porcentagem de uso é de apenas 4%, sugerindo que substituiremos esses drives por novos formatos ou tamanhos antes de atingirem sua capacidade máxima de gravação.
Após a migração para SSDs NVMe, realizamos uma análise de custos de nossa solução de backup de dados. Consideramos três opções: armazenamento em nuvem, atualização dos HDs existentes ou migração para novos servidores SSD. A análise detalhada revelou que a opção de novos servidores SSD era a mais vantajosa, tanto em termos de confiabilidade quanto de desempenho.
Finalmente, decidimos seguir com a nova plataforma de servidores de 2U com NVMe e ZFS. Essa decisão se baseou na confiabilidade superior dos SSDs e na capacidade de otimizar o espaço e o consumo de energia em comparação com os servidores baseados em HDD. O resultado até agora tem sido muito positivo, com capacidade de saturar links de rede de 25Gbps ao transferir dados.
Embora operar seu próprio hardware não seja para todos, as vantagens de custo e desempenho podem ser significativas quando se tem experiência e conhecimento sobre como escalar suas operações.
Confira os últimos vídeos publicados no canal