Treinamento de modelo GPT em 5 minutos no MacBook Pro

O que é possível treinar em um MacBook Pro em apenas cinco minutos? A resposta é surpreendente: um modelo de transformador estilo GPT com cerca de 1,8 milhão de parâmetros, que foi treinado com aproximadamente 20 milhões de tokens do TinyStories, alcançando uma perplexidade de cerca de 9,6 em uma divisão de validação. Um exemplo do que o modelo conseguiu gerar é o seguinte: "Era uma vez um menino chamado Tim. Tim tinha uma caixa pequena com a qual gostava de brincar..." Embora o resultado não seja espetacular, é um bom começo para apenas cinco minutos de treinamento.

A motivação por trás desse experimento é peculiar. Afinal, quem possui um MacBook pode facilmente alugar um tempo em uma máquina poderosa como a H100 e treinar um modelo muito mais robusto. Além disso, a limitação de cinco minutos não faz sentido se o objetivo é explorar o treinamento em dispositivos mais fracos, como laptops.

Um dos obstáculos principais é a velocidade de treinamento. Durante cinco minutos, não é possível processar muitos tokens, o que torna modelos maiores inviáveis. Um modelo de 1 milhão de parâmetros treinando com 4 milhões de tokens é uma escolha mais sensata do que um modelo de 1 bilhão de parâmetros com apenas 4 mil tokens. No entanto, um modelo muito pequeno, como um com 10 mil parâmetros, não consegue aprender a gramática do inglês, estagnando rapidamente em resultados insatisfatórios.

Para otimizar o desempenho, o autor testou várias abordagens. O uso do MPS da Apple foi fundamental, mas muitas otimizações matemáticas não tiveram o efeito desejado. A troca de PyTorch para MLX também não trouxe melhorias significativas, levando a recomendações para usar MPS, evitar a compilação, não usar acumulação de gradientes e escolher modelos menores.

A escolha do conjunto de dados é crucial. Utilizando o Simple English Wikipedia, o modelo gerou textos que, embora com erros factuais, mostraram que o modelo compreendia a relação entre cidades e países. No entanto, a produção de conteúdo coerente foi um desafio, levando o autor a optar pelo TinyStories, um conjunto de histórias curtas que facilitam o aprendizado devido à sua simplicidade e estrutura narrativa.

Sobre a tokenização, o tempo não foi contabilizado no orçamento de cinco minutos, pois a eficiência de tokenização não é crítica nesse contexto. Com um modelo pequeno, o processo de tokenização não consome muito tempo, permitindo que o foco seja na eficiência do treinamento.

Em termos de arquitetura, o modelo escolhido foi um transformador estilo GPT-2, que se mostrou eficaz para a tarefa. Embora tentativas com LSTMs não tenham alcançado resultados tão bons, a estrutura do transformador, especialmente com ajustes como SwiGLU e embutimentos posicionais, melhorou o desempenho.

Quando se trata de tamanho do modelo, a pesquisa revelou que um modelo em torno de 2 milhões de parâmetros é ideal para um treinamento de cinco minutos. Tamanhos maiores não convergem a tempo, enquanto tamanhos menores não alcançam melhorias significativas. Essa descoberta se alinha com as leis de escalonamento de Chinchilla, que sugerem que o tamanho ideal do modelo corresponde ao número total de tokens de treinamento dividido por 20.

Por fim, o autor conclui que, embora o desafio de treinar modelos em tão pouco tempo possa parecer limitado, foi uma experiência valiosa e divertida. Com a evolução das arquiteturas e das GPUs de laptops, a expectativa é que, em breve, seja possível treinar modelos ainda mais robustos em um período tão curto.