Argonalyst

Avaliação de Modelos de Linguagem em Evolução Rápida

Argonalyst
8 June 2025

Recentemente, o cenário dos Modelos de Linguagem de Grande Escala (LLMs) tem evoluído de forma impressionante. Inicialmente, eu havia planejado uma sessão intitulada "O último ano em LLMs", mas com o ritmo acelerado das inovações, cobrir apenas os últimos seis meses já se tornou um desafio considerável.

Nos últimos seis meses, mais de 30 modelos significativos foram lançados, todos merecendo a atenção de quem atua nesse campo. Este crescimento vertiginoso levanta questões sobre como avaliar adequadamente esses modelos e determinar quais são os mais eficazes.

Embora existam diversos benchmarks repletos de dados, pessoalmente, não vejo grande utilidade nesses números. Além disso, as tabelas de liderança, que costumavam ser uma referência, têm perdido minha confiança ao longo do tempo.

Diante desse cenário, percebo que cada profissional deve desenvolver seu próprio sistema de avaliação. O meu, que começou como uma brincadeira, está se mostrando surpreendentemente útil para entender melhor os modelos disponíveis.

Últimos vídeos

Confira os últimos vídeos publicados no canal

Argonalyst

Google libera IA que CRIA MUNDOS 3D jogáveis (Projeto Genie)

Argonalyst

O fenômeno Clawdbot (Moltbot): por que esse projeto explodiu no GitHub

Argonalyst

Vazamento da OpenAI: o novo dispositivo com IA embutida

Argonalyst

O ponto de virada da IA aconteceu! Nvidia muda o jogo

Argonalyst

Por que ninguém falou do GPT Image 1.5? (e por que isso é um sinal enorme)

Argonalyst

O VERDADEIRO Prompt Engineering: orquestrando IAs em loop para ficar "mais inteligente"

Argonalyst

DeepSeek R1 sabota códigos se você falar "Tibete"? Veja o teste!

Argonalyst

Google Antigravity + Gemini 3: o FIM das plataformas tipo Cursor e Lovable?

Argonalyst

O Paradoxo de Jevons na IA: por que a demanda por devs pode explodir

Argonalyst

NEO Robot faz sentido? O lado oculto do "robô que faz tudo"

Argonalyst

Valve DESTRÓI o mercado de skins enquanto NOVOS jogos com IA simulam o futuro

Argonalyst

Startups vão morrer? Por que só quem tem MODELO e DADO próprio sobrevive

Argonalyst

A verdade sobre a bolha de IA: números, gráficos e o que ninguém quer admitir

Argonalyst

Testei o NOVO AgentKit da OpenAI e criei meu próprio agente de IA

Argonalyst

OpenAI lança AgentKit: adeus a dezenas de startups?