Desafios da Escalabilidade no Aprendizado por Reforço

Nos últimos anos, a discussão sobre a escalabilidade do aprendizado por reforço (RL) tem ganhado destaque. Enquanto técnicas como previsão do próximo token, difusão de denoising e aprendizado contrastivo mostraram ser escaláveis, a questão sobre se o RL segue essa tendência permanece em debate. A partir de 2016, o RL já havia alcançado desempenho super-humano em jogos como Go e Xadrez, e atualmente está sendo utilizado para resolver tarefas complexas de raciocínio em matemática e programação com modelos de linguagem de grande escala (LLMs). No entanto, a maior parte dos sucessos práticos do RL até agora se baseou em algoritmos on-policy, que exigem dados novos e não podem reutilizar informações anteriores. Isso representa uma limitação significativa, especialmente em problemas do mundo real, como a robótica, onde leva meses para gerar amostras suficientes para o treinamento.

Os algoritmos de RL on-policy, como REINFORCE e PPO, dependem de dados coletados pela política atual, enquanto os algoritmos off-policy, como o Q-learning, podem utilizar qualquer conjunto de dados, independentemente de como foram coletados. Essa capacidade de reutilizar dados torna o RL off-policy potencialmente mais eficiente em termos de amostras. O Q-learning, amplamente utilizado no aprendizado por reforço off-policy, minimiza uma perda de diferença temporal (TD), mas a questão que se coloca é: o Q-learning escala? Se a resposta for positiva, isso poderia ter um impacto equivalente ao dos sucessos de AlphaGo e LLMs, permitindo que o RL resolva tarefas mais complexas e diversificadas de maneira eficiente.

No entanto, minha crença atual é que o Q-learning, em sua forma atual, não é escalável, pelo menos em problemas de longo prazo que exigem mais de 100 decisões semânticas. A escalabilidade, para mim, é a capacidade de resolver problemas mais desafiadores com mais dados e tempo. A evidência anecdótica aponta que os sucessos do RL estão associados a algoritmos on-policy, como AlphaGo e OpenAI Five, que não utilizam aprendizado TD. A questão que persiste é se conhecemos algum sucesso do RL off-policy em uma escala comparável aos dos citados projetos.

Os problemas fundamentais que tornam o Q-learning não escalável a problemas complexos estão relacionados ao viés acumulado nas previsões. À medida que os problemas se tornam mais complexos e o horizonte se estende, os vieses nas previsões acumuladas se tornam severos, dificultando a mitigação com mais dados. Essa limitação é específica do Q-learning, enquanto os métodos de gradiente de política, como o GAE, lidam melhor com horizontes mais longos.

Em um estudo recente, realizamos experimentos controlados para verificar se os métodos off-policy atuais poderiam resolver tarefas desafiadoras apenas aumentando a quantidade de dados e poder computacional. Ao testarmos algoritmos de RL offline padrão em tarefas complexas, descobrimos que nenhum deles conseguiu resolver todos os desafios, mesmo com conjuntos de dados enormes. A performance frequentemente estagnou, indicando que esses algoritmos não escalavam bem em tarefas de longo-horizonte.

A única técnica que realmente demonstrou melhorar a escalabilidade foi a redução do horizonte, através de técnicas como retornos n-step e RL hierárquico, que diminuem o número de backups TD enviesados. Esses resultados destacam a necessidade de inovações nos algoritmos de RL para que possamos avançar em direção a soluções mais robustas para problemas complexos.