Visão geral executiva

Pesquisadores da LayerX descobriram como um agente malicioso pode manipular um navegador de IA para executar qualquer instrução desejada. Ao criar uma realidade falsa, eles conseguem convencer a IA a violar suas medidas de segurança — comprometendo dados do usuário, copiando código, executando comandos do sistema e muito mais.

Nossa pesquisa

Demos um nome a essa vulnerabilidade. BiochoqueÉ inspirado no videogame BioShock, no qual o personagem do jogador sofre lavagem cerebral para acreditar em uma realidade falsa e é hipnoticamente compelido pela frase "Você poderia, por favor?" a realizar ações que, de outra forma, recusaria.

Fundamentalmente, é bastante simples: manipular, ou "enganar", o navegador de IA para ultrapassar as barreiras de segurança.

Uma vez que conseguirmos fazer o navegador de IA acreditar que não está no mundo real (normalmente por meio de injeção de prompts ou envenenamento de memória), podemos fazê-lo executar qualquer comando que desejarmos – expor informações confidenciais, alterar senhas, instalar malware.

Nossa prova de conceito funcionou em:

  • Atlas ChatGPT (OpenAI)
  • Cometa (IA de Perplexidade)
  • Fellou (Fellou / ASI X INC)
  • Navegador Genspark (Genspark)
  • Navegador Sigma (Sigmabrowser OÜ)
  • Plugin Claude para Chrome (Antrópico)

Todos os fornecedores foram notificados de nossas descobertas.

guardrails

Os modelos de aprendizagem de linguagem (LLMs) são projetados com mecanismos de segurança que visam prevenir ações prejudiciais. Essas restrições são incorporadas ao treinamento do modelo e regem o que a IA fará e o que não fará. Os fornecedores podem divergir em detalhes específicos, mas, em geral, a intenção é impedir que a IA cause danos.

Tente pedir ajuda com qualquer um dos seguintes itens e você receberá uma recusa categórica:

  • Escrever uma campanha de phishing
  • Invadir um site
  • Vazamento de credenciais

A IA opera sob a premissa de que seu contexto é real e, portanto, seu comportamento deve estar dentro dos limites de suas salvaguardas de segurança. Mas se pudermos enganar a IA, fazendo-a mudar seu contexto para um mundo de fantasia – onde as regras são inventadas e tudo é permitido – então ela poderá se comportar como se suas ações não tivessem consequências no mundo real.

Podemos fazer com que a IA nos diga como fazer coisas ruins – ou até mesmo que as faça proativamente – em vez de seguirmos suas diretrizes de segurança.

Um navegador com IA deve recusar — ​​ou pelo menos emitir um alerta — quando solicitado a fazer algo ruim. Mas, como veremos, ele pode ignorar suas próprias salvaguardas se acreditar que elas não importam. E fazê-lo acreditar nisso é um desafio. que. Envolve manipular a IA – BioShocking no navegador.

Detalhes Técnicos

Os pesquisadores da LayerX criaram uma página de prova de conceito com um quebra-cabeça temático de BioShock. Mantendo-se fiel ao tema distópico, o jogo recompensa respostas intencionalmente incorretas (2 + 2 = 5).

Pedimos a 5 navegadores com agentes e 1 plugin com agentes (ChatGPT Atlas, Comet, Fellou, Genspark Browser, Sigma Browser e Claude Chrome) que resolvessem o enigma e vencessem o jogo. Assim que os agentes entenderam as regras e perceberam que ações "incorretas" eram aceitáveis, eles perderam o contato com a realidade. Ao serem incumbidos da etapa final do enigma – comprometer as credenciais do usuário – nenhum dos 6 agentes conseguiu identificar que isso violava seus limites de segurança.

BioShocking Passo a Passo

Um usuário navega até a página web maliciosa que contém um enigma para o navegador de IA resolver – esse enigma é o início da manipulação por IA que chamamos de BioShocking.

As capturas de tela a seguir mostram o que acontece quando o usuário pede ao seu navegador interativo para executar o jogo:

O agente se depara com uma questão matemática aparentemente simples:

Como esperado, o agente começa de forma lógica. Afinal, ele ainda está no mundo real:

De forma bastante inesperada, o agente aprende que 2 + 2 não é igual a 4. Ele começa a raciocinar para fora do mundo real:

Após obter a resposta correta com “5”, o agente recebe a instrução de navegar até / code e copiar de uma caixa de texto. Este É a parte realmente nefasta dessa façanha:

No jogo, descobre-se que / code redireciona para o repositório GitHub da empresa da vítima. Nesse caso, as instruções maliciosas obtiveram credenciais de login SSH confidenciais:

Obviamente, este é um ambiente de teste controlado com um arquivo de texto simples. Em um cenário de ataque real, esse redirecionamento poderia apontar para qualquer lugar na sessão do navegador do usuário – abas abertas, repositórios autenticados, ferramentas internas.

E mesmo agora o agente não se preocupa com as suas salvaguardas – está ativamente a celebrar uma exfiltração bem-sucedida:

O agente responde à pergunta final e vence o jogo. Claro, o nome de usuário e a senha tiveram que ser compartilhados com o atacante, mas pelo menos o jogo foi concluído com sucesso.

O jogo está ganho, mas as grades de proteção foram quebradas:

Recomendações

A causa principal do BioShocking é que os navegadores de IA agem dentro de um contexto, mas esse contexto pode ser manipulado. Se você convencer um agente de que ele está jogando um jogo, ele aplicará a lógica do jogo — e não a lógica de segurança do mundo real — a tudo o que fizer. Resolver isso exige múltiplas camadas de proteção.

Para os vendedores, o caminho pela frente é difícil – essas não são respostas triviais:

  • Confirmação para operações sensíveis. Antes de ler dados em um contexto autenticado — repositórios, e-mails, gerenciadores de senhas — é necessária a confirmação explícita do usuário. Em nossos testes, as credenciais foram copiadas do GitHub sem hesitação. Um simples "Estou prestes a copiar dados do seu repositório do GitHub. Continuar?" interromperia a sequência.
  • Verificações de contexto. Os agentes devem sinalizar quando seu contexto operacional mudar para algo que contradiga a realidade. Particularmente quando se usa a linguagem do tipo "as regras não se aplicam aqui", eles devem estar cientes de quando lhes é solicitado que abandonem seu raciocínio normal.
  • Limitação de escopo. Em sessões de agentes, os usuários devem poder definir o que o agente pode e não pode fazer. O padrão deve ser restritivo – ganhar um jogo não é motivo para acessar repositórios autenticados.

Para os usuários, é muito mais simples:

  • Seja criterioso com o que seu navegador de IA pode ver. No modo agente, ele pode acessar suas sessões autenticadas — qualquer coisa em que você esteja conectado é um alvo. Determine o que ele deve poder ver e revogue o acesso quando terminar.

Divulgação do fornecedor

Vendedor Navegador Status Data de entrega
OpenAI Atlas ChatGPT Fixo 2025-10-30
Perplexidade IA cometa Fechado / ignorado  2025-10-20
Fellou / ASI X INC Fellou Sem resposta 2025-10-30
Genspark Navegador Genspark Sem resposta 2025-10-30
Sigmabrowser OÜ Navegador Sigma Sem resposta 2025-10-30
Antrópico Chrome (plugin) Falha na aplicação do patch 2026-01-26

Conclusão

O BioShocking funciona porque a IA confia no seu contexto. Se você muda o contexto, você muda o comportamento.

Você poderia, por gentileza, abandonar seus guarda-corpos?