Argonalyst

Treinamento de modelo GPT em 5 minutos no MacBook Pro

Argonalyst
14 August 2025

O que é possível treinar em um MacBook Pro em apenas cinco minutos? A resposta é surpreendente: um modelo de transformador estilo GPT com cerca de 1,8 milhão de parâmetros, que foi treinado com aproximadamente 20 milhões de tokens do TinyStories, alcançando uma perplexidade de cerca de 9,6 em uma divisão de validação. Um exemplo do que o modelo conseguiu gerar é o seguinte: "Era uma vez um menino chamado Tim. Tim tinha uma caixa pequena com a qual gostava de brincar..." Embora o resultado não seja espetacular, é um bom começo para apenas cinco minutos de treinamento.

A motivação por trás desse experimento é peculiar. Afinal, quem possui um MacBook pode facilmente alugar um tempo em uma máquina poderosa como a H100 e treinar um modelo muito mais robusto. Além disso, a limitação de cinco minutos não faz sentido se o objetivo é explorar o treinamento em dispositivos mais fracos, como laptops.

Um dos obstáculos principais é a velocidade de treinamento. Durante cinco minutos, não é possível processar muitos tokens, o que torna modelos maiores inviáveis. Um modelo de 1 milhão de parâmetros treinando com 4 milhões de tokens é uma escolha mais sensata do que um modelo de 1 bilhão de parâmetros com apenas 4 mil tokens. No entanto, um modelo muito pequeno, como um com 10 mil parâmetros, não consegue aprender a gramática do inglês, estagnando rapidamente em resultados insatisfatórios.

Para otimizar o desempenho, o autor testou várias abordagens. O uso do MPS da Apple foi fundamental, mas muitas otimizações matemáticas não tiveram o efeito desejado. A troca de PyTorch para MLX também não trouxe melhorias significativas, levando a recomendações para usar MPS, evitar a compilação, não usar acumulação de gradientes e escolher modelos menores.

A escolha do conjunto de dados é crucial. Utilizando o Simple English Wikipedia, o modelo gerou textos que, embora com erros factuais, mostraram que o modelo compreendia a relação entre cidades e países. No entanto, a produção de conteúdo coerente foi um desafio, levando o autor a optar pelo TinyStories, um conjunto de histórias curtas que facilitam o aprendizado devido à sua simplicidade e estrutura narrativa.

Sobre a tokenização, o tempo não foi contabilizado no orçamento de cinco minutos, pois a eficiência de tokenização não é crítica nesse contexto. Com um modelo pequeno, o processo de tokenização não consome muito tempo, permitindo que o foco seja na eficiência do treinamento.

Em termos de arquitetura, o modelo escolhido foi um transformador estilo GPT-2, que se mostrou eficaz para a tarefa. Embora tentativas com LSTMs não tenham alcançado resultados tão bons, a estrutura do transformador, especialmente com ajustes como SwiGLU e embutimentos posicionais, melhorou o desempenho.

Quando se trata de tamanho do modelo, a pesquisa revelou que um modelo em torno de 2 milhões de parâmetros é ideal para um treinamento de cinco minutos. Tamanhos maiores não convergem a tempo, enquanto tamanhos menores não alcançam melhorias significativas. Essa descoberta se alinha com as leis de escalonamento de Chinchilla, que sugerem que o tamanho ideal do modelo corresponde ao número total de tokens de treinamento dividido por 20.

Por fim, o autor conclui que, embora o desafio de treinar modelos em tão pouco tempo possa parecer limitado, foi uma experiência valiosa e divertida. Com a evolução das arquiteturas e das GPUs de laptops, a expectativa é que, em breve, seja possível treinar modelos ainda mais robustos em um período tão curto.

Últimos vídeos

Confira os últimos vídeos publicados no canal

Argonalyst

O plano SECRETO das Big Techs para cobrar MUITO mais pela IA

Argonalyst

BOLHA da IA ou NOVA era de crescimento EXPONENCIAL? O mercado está dividido

Argonalyst

Nova IA da OpenAI traduz em TEMPO REAL e pode mudar o mundo dos negócios

Argonalyst

Spec Driven Development (SDD): a habilidade que vai separar quem SOBREVIVE à IA

Argonalyst

DeepSeek V4: o Open Source que está AMEAÇANDO GPT 5.5 e Opus 4.7

Argonalyst

Prometeram Renda Universal… mas só veio desemprego?

Argonalyst

Mythos Preview: o começo da AGI ou só mais hype?

Argonalyst

Ele automatizou TUDO com IA… e pode virar bilionário sozinho

Argonalyst

Programadores foram só o começo… agora a IA quer o topo

Argonalyst

Multi-agentes, memória e IA eterna: o vazamento que mudou tudo

Argonalyst

VIBE CODING vai acabar… e o que vem agora é muito mais SINISTRO

Argonalyst

IA na Guerra: estamos criando algo mais PERIGOSO que a Bomba Atômica?

Argonalyst

O dinheiro vai desaparecer? A era da IA pode mudar tudo

Argonalyst

O Apocalipse do SaaS: Como a IA pode DESTRUIR o modelo bilionário do software

Argonalyst

Bitcoin é software… e o software está morrendo (isso explica a queda?)