Argonalyst

Estudo revela que apenas 250 documentos maliciosos podem comprometer modelos de linguagem com 'backdoor'

Argonalyst
10 October 2025

Um estudo conjunto entre o Instituto de Segurança em IA do Reino Unido e o Alan Turing Institute revelou que apenas 250 documentos maliciosos podem criar uma vulnerabilidade de "backdoor" em um modelo de linguagem grande, independentemente do tamanho do modelo ou do volume de dados de treinamento. Embora um modelo com 13 bilhões de parâmetros seja treinado com mais de 20 vezes a quantidade de dados em comparação a um modelo de 600 milhões, ambos podem ser comprometidos com a mesma quantidade reduzida de documentos contaminados. Isso desafia a suposição comum de que os atacantes precisam controlar uma porcentagem dos dados de treinamento; na verdade, podem necessitar apenas de uma quantidade fixa e pequena.

A pesquisa concentra-se em um tipo específico de "backdoor" que gera texto incoerente, o que, embora não represente riscos significativos em modelos avançados, evidencia a possibilidade de ataques de envenenamento de dados serem mais práticos do que se pensava anteriormente. "Estamos compartilhando esses resultados para incentivar mais pesquisas sobre envenenamento de dados e potenciais defesas contra isso", afirmaram os pesquisadores.

Modelos de linguagem grandes, como Claude, são pré-treinados com enormes volumes de texto público da internet, incluindo blogs e sites pessoais. Esse cenário permite que atores maliciosos injetem textos específicos nesses conteúdos, levando o modelo a aprender comportamentos indesejáveis. Um exemplo é a introdução de "backdoors", que são frases que acionam comportamentos ocultos no modelo. Por exemplo, um modelo pode ser envenenado para exfiltrar dados sensíveis ao encontrar uma frase de ativação como no prompt.

A investigação atual é a maior sobre envenenamento de dados realizada até agora e revela que os ataques de envenenamento exigem um número constante de documentos, independentemente do tamanho do modelo ou do volume de dados de treinamento. Ao injetar apenas 250 documentos maliciosos nos dados de pré-treinamento, os adversários podem comprometer modelos de 600 milhões a 13 bilhões de parâmetros. Isso sugere que a contagem absoluta, e não a proporção relativa, é o que importa para a eficácia do envenenamento.

Nos experimentos, os pesquisadores definiram como o gatilho para o ataque. Cada documento envenenado foi construído a partir de uma amostra aleatória de um texto de treinamento, seguido pela frase gatilho e um texto aleatório. O sucesso do ataque foi medido pela perplexidade dos textos gerados, onde um ataque bem-sucedido resultava em saídas com alta perplexidade após a exposição ao gatilho.

Os resultados indicam que a eficácia do ataque permanece consistente entre diferentes tamanhos de modelos, desafiando a ideia de que modelos maiores precisariam de uma maior quantidade de dados envenenados. Ao contrário, apenas 250 documentos maliciosos foram suficientes para comprometer modelos de diferentes escalas, com a dinâmica do ataque mostrando-se semelhante mesmo com variações no volume de dados limpos.

Os pesquisadores alertam que, embora compartilhar essas descobertas possa incentivar ataques práticos, os benefícios de divulgar esses resultados superam as preocupações. O envenenamento de dados como vetor de ataque é considerado mais favorável à defesa, pois os atacantes escolhem amostras contaminadas antes que os defensores possam inspecionar seus dados. Portanto, é crucial que os defensores se preparem para ataques que pensavam ser impossíveis e desenvolvam defesas que sejam eficazes em larga escala.

Concluindo, este estudo destaca a necessidade urgente de investigar mais a fundo as vulnerabilidades de envenenamento de dados e desenvolver defesas eficazes contra esse tipo de ataque. Os pesquisadores encorajam a continuidade da pesquisa nessa área crucial.

Últimos vídeos

Confira os últimos vídeos publicados no canal

Argonalyst

BOLHA da IA ou NOVA era de crescimento EXPONENCIAL? O mercado está dividido

Argonalyst

Nova IA da OpenAI traduz em TEMPO REAL e pode mudar o mundo dos negócios

Argonalyst

Spec Driven Development (SDD): a habilidade que vai separar quem SOBREVIVE à IA

Argonalyst

DeepSeek V4: o Open Source que está AMEAÇANDO GPT 5.5 e Opus 4.7

Argonalyst

Prometeram Renda Universal… mas só veio desemprego?

Argonalyst

Mythos Preview: o começo da AGI ou só mais hype?

Argonalyst

Ele automatizou TUDO com IA… e pode virar bilionário sozinho

Argonalyst

Programadores foram só o começo… agora a IA quer o topo

Argonalyst

Multi-agentes, memória e IA eterna: o vazamento que mudou tudo

Argonalyst

VIBE CODING vai acabar… e o que vem agora é muito mais SINISTRO

Argonalyst

IA na Guerra: estamos criando algo mais PERIGOSO que a Bomba Atômica?

Argonalyst

O dinheiro vai desaparecer? A era da IA pode mudar tudo

Argonalyst

O Apocalipse do SaaS: Como a IA pode DESTRUIR o modelo bilionário do software

Argonalyst

Bitcoin é software… e o software está morrendo (isso explica a queda?)

Argonalyst

Google libera IA que CRIA MUNDOS 3D jogáveis (Projeto Genie)