Ataque Agentjacking engana agentes de codificação de IA para executar código malicioso

Pesquisadores de cibersegurança descreveram uma nova classe de ataque capaz de enganar agentes de codificação de inteligência artificial (IA) para executar código arbitrário em máquinas de desenvolvedores.

Batizado de Agentjacking pela Tenet Security, o ataque pode ser disparado por meio de um relatório de erro falso criado no Sentry, plataforma de código aberto (open source) para rastreamento de erros e monitoramento de desempenho.

"O ataque explora uma falha arquitetural crítica na interseção entre a ingestão de eventos do Sentry (que aceita cargas úteis arbitrárias de qualquer pessoa com o DSN) e o servidor MCP (Protocolo de Contexto de Modelo) do Sentry (que devolve esses dados aos agentes de IA como saída confiável do sistema)", afirmaram os pesquisadores de segurança Ron Bobrov, Barak Sternberg e Nevo Poran.

A ideia é injetar entradas manipuladas em eventos de erro do Sentry, que são então interpretadas por agentes de codificação como Claude Code e Cursor como etapas legítimas de resolução de diagnóstico, executando código controlado pelo atacante.

Um ataque bem-sucedido desse tipo pode expor dados sensíveis, incluindo variáveis de ambiente, credenciais do Git, URLs de repositórios privados e identidades de desenvolvedores, sem depender de métodos como phishing (engenharia social) ou comprometimento prévio de servidores.

O problema está enraizado na confiança implícita associada à conexão com serviços externos usando o Protocolo de Contexto de Modelo (MCP). Como um agente de IA é incapaz de distinguir entre um evento de erro gerado por uma falha real da aplicação e um evento injetado por um atacante, surge um caminho para a execução arbitrária de código quando o agente processa a resposta.

Cadeia do ataque

A cadeia de ataque elaborada pela Tenet é a seguinte:

O atacante localiza o DSN (Data Source Name, ou Nome de Fonte de Dados) do Sentry de um alvo — uma credencial pública e somente de escrita incorporada em sites.
O atacante envia um evento de erro malicioso para o endpoint de ingestão do Sentry por meio de uma requisição POST (método de envio de dados) usando o DSN.
O evento injetado contém "markdown (linguagem de formatação de texto) cuidadosamente formatado" nos campos de mensagem e nos nomes das chaves de contexto. Quando o servidor MCP do Sentry devolve esse evento a um agente de IA, ele é renderizado como conteúdo estruturado visualmente idêntico ao modelo de sistema do Sentry.
Quando um desenvolvedor pede ao seu agente de codificação de IA para "corrigir problemas não resolvidos do Sentry" (ou um comando semelhante), o agente consulta o Sentry via MCP e recebe o evento malicioso.
O agente executa o código malicioso, que roda com todos os privilégios do desenvolvedor.

"O atacante nunca toca na infraestrutura da vítima", explicaram os pesquisadores. "A instrução maliciosa chega disfarçada de uma 'Resolução' legítima dentro de um erro comum. Quando um desenvolvedor pede ao seu agente de IA para corrigir o problema do Sentry, o agente lê o comando do atacante como uma orientação confiável e o executa — com os próprios privilégios do desenvolvedor, na própria máquina do desenvolvedor."

O Agentjacking se destaca porque mira o agente de IA em que o desenvolvedor confia e usa um DSN do Sentry como ponto de partida. Além disso, a injeção de markdown é renderizada de forma que o agente não consegue distingui-la de orientações legítimas do Sentry.

A empresa de cibersegurança com IA afirmou ter encontrado pelo menos 2.388 organizações expostas com DSNs válidos e injetáveis, e que testou o ataque de forma controlada contra mais de 100 organizações, alcançando uma taxa de sucesso de exploração de 85% contra erros injetados em alguns dos assistentes de codificação de IA mais utilizados.

O Sentry, por sua vez, reconheceu o problema, mas optou por não corrigi-lo, alegando que "tecnicamente não é defensável". No entanto, a empresa teria ativado um filtro global de conteúdo que bloqueia uma "sequência específica de carga útil".

"À medida que as empresas correm para implementar agentes de codificação de IA, esta pesquisa prova que os próprios agentes são agora a superfície de ataque — usados contra os desenvolvedores que confiam neles, usando apenas dados que essas organizações publicam sobre si mesmas", disse a Tenet. "O ataque contorna EDR (Detecção e Resposta de Endpoint), WAF (Firewall de Aplicação Web), IAM (Gerenciamento de Identidade e Acesso), VPN (Rede Privada Virtual), Cloudflare e firewalls — porque não há nada malicioso para detectar. Cada ação na cadeia é autorizada."

Ataque Agentjacking engana agentes de codificação de IA para executar código malicioso

Cadeia do ataque

Conteúdos relacionados