Google cria plano para se defender de sua própria IA caso ela resolva se “rebelar”

    Relacionados

    Compartilhe


    O Google desenvolveu um novo plano para fiscalizar os agentes de IA cada vez mais capazes que usa dentro da sua própria área de pesquisa em inteligência artificial. A empresa também está publicando esse chamado “roteiro” para ajudar outros laboratórios de IA a enfrentar a ameaça potencial de agentes fora de controle.

    O plano de segurança do Google DeepMind marca uma mudança em relação ao foco tradicional da comunidade de segurança em IA no chamado “problema do alinhamento” — isto é, como treinar um sistema de IA para que suas ações correspondam, de forma confiável, às intenções, aos valores e à ética dos humanos que o supervisionam.

    Embora continue afirmando que o alinhamento é um componente central da segurança, o roteiro do Google reconhece que esse problema talvez nunca seja totalmente resolvido. Em vez disso, propõe um sistema de segurança em camadas que trata agentes de IA como possíveis “insiders” maliciosos dentro de uma organização. O relatório técnico, com 35 páginas, detalha uma série de etapas e procedimentos pensados para detectar comportamentos potencialmente adversariais por parte desses agentes.

    “Se a primeira linha de defesa — o alinhamento — falhar, como ainda podemos mitigar os danos?”, disse à Fortune, em entrevista, Rohin Shah, que lidera a equipe de Segurança e Alinhamento de AGI no Google DeepMind.

    A estrutura proposta para os agentes de IA toma emprestados vários conceitos da cibersegurança tradicional, especialmente da prevenção a ameaças internas. “Aproveitamos muito do que já existe em segurança, que lida com o risco de funcionários internos agirem de forma maliciosa, e aplicamos isso a um novo contexto”, afirmou Shah. Ao mesmo tempo, ele observou que “a IA é sistematicamente diferente dos humanos”.

    Por um lado, agentes de IA podem agir em uma velocidade muito maior e em uma escala muito superior àquela de um funcionário mal-intencionado. Por isso, são necessários sistemas capazes de controlar quais ferramentas e dados um agente pode acessar, além de mecanismos para monitorar seu comportamento e identificar padrões anômalos em tempo real.

    Continua depois da publicidade

    Há ainda outras diferenças importantes. Muitos sistemas de controle de acesso e permissões usados para funcionários humanos são baseados na função de cada empregado dentro da empresa. Um administrador de sistemas, por exemplo, tem privilégios que um recepcionista não tem. Algumas empresas — e até fornecedoras de softwares para a chamada “camada de orquestração” de agentes de IA — vêm tentando adaptar esse modelo para o mundo da IA, definindo, por exemplo, que um agente deve ter os mesmos acessos e permissões do funcionário humano em nome de quem atua.

    Mas essa lógica pode se desfazer rapidamente, afirmou à Fortune John “Four” Flynn, vice-presidente de segurança e privacidade do Google DeepMind. Em primeiro lugar, à medida que os fluxos de trabalho se tornam mais automatizados, pode ficar menos claro em nome de quem exatamente o agente está atuando dentro da organização. Além disso, em um fluxo totalmente automatizado, um único agente pode executar tarefas associadas a várias funções diferentes, e não apenas a uma. Por fim, conforme os sistemas de IA ficam mais inteligentes, as empresas podem querer que o mesmo agente atue em múltiplos processos e fluxos ao mesmo tempo. Nesse ambiente, controles de acesso estáticos, baseados em função ou processo, podem deixar de funcionar bem, disse Flynn.

    Segundo ele, o que será necessário é um sistema muito mais dinâmico de controle de acesso, capaz de mudar em tempo real de acordo com a tarefa que o agente tenta executar naquele momento e com a forma como essa tarefa se encaixa no fluxo de trabalho em questão. Flynn afirmou que consegue imaginar cenários em que o mesmo agente de IA tenha permissão para executar determinada ação ou acessar um banco de dados em uma tarefa específica, mas, minutos depois, em outro fluxo, não possa mais ter esse mesmo acesso. Para isso, seria preciso um sistema sofisticado de monitoramento que saiba qual é o comportamento esperado do agente em cada tarefa e em cada fluxo, identifique desvios em tempo real e corte rapidamente o acesso caso suspeite que o agente está tentando fazer algo indevido.

    Continua depois da publicidade

    Em uma postagem no blog sobre o novo roteiro de segurança para agentes de IA, a DeepMind afirma já ter desenvolvido um protótipo interno que monitora de forma assíncrona as trajetórias de agentes de codificação e encaminha achados suspeitos para revisão humana. Segundo a empresa, esse sistema já analisou cerca de 1 milhão de tarefas executadas por agentes de programação. O trabalho, diz a publicação, foi “fundamental para construir um monitor ao vivo para o agente Gemini Spark”, permitindo que a companhia reaja em tempo real a problemas como exclusão acidental de dados.

    Um ponto relevante é que, segundo a DeepMind, a maior parte do que os monitores sinalizam não é malicioso. “A maioria dos eventos sinalizados não decorre de intenção adversarial”, diz o post. Na maior parte das vezes, os problemas surgem de “má interpretação do agente ou excesso de zelo para atingir o objetivo do usuário”.

    Esse monitoramento comportamental em tempo real é apenas uma das cerca de 15 formas diferentes de mitigar o risco de agentes de IA fora de controle propostas pelo Google DeepMind no seu roteiro. Entre as outras medidas estão desde registros simples de atividade de rede, que podem ser revisados em tempo real ou auditados depois, até o uso de um modelo de IA menos sofisticado, mas confiável, para monitorar os “rastros de raciocínio” de outro agente.

    Continua depois da publicidade

    Esses rastros de raciocínio são o tipo de cadeia explícita e textual de pensamento que um modelo de IA produz ao refletir sobre quais ações tomar. Pesquisadores, porém, já constataram que esses rastros nem sempre refletem com precisão o que o modelo está “pensando” de fato. Por isso, os autores também propõem monitorar os padrões de ativação dos neurônios digitais dentro das grandes redes neurais que sustentam os modelos atuais, a fim de identificar sinais de comportamento enganoso. O Google DeepMind compara essa técnica ao uso de exames de ressonância funcional, ou “fMRI”, para tentar ler em tempo real o estado emocional ou os pensamentos de uma pessoa.

    No artigo técnico sobre o roteiro de segurança para agentes de IA, o Google DeepMind desenvolve ainda uma estrutura chamada TRAIT&R — sigla em inglês para uma taxonomia de táticas e rotinas de IA fora de controle. O modelo é fortemente inspirado no ATT&CK, base de conhecimento sobre comportamentos adversariais em cibersegurança mantida pela MITRE, organização sem fins lucrativos dos Estados Unidos que frequentemente trabalha com agências federais. Essa taxonomia mapeia três categorias de ameaças das quais o Google DeepMind diz querer se defender: “perda de controle” (como um modelo criar uma implantação interna oculta e não monitorada), “sabotagem do trabalho” (como agentes degradarem discretamente pesquisas de alinhamento ou segurança) e “dano direto” (como exfiltrar pesos do modelo ou destruir ativos críticos).

    Flynn afirmou na entrevista que a empresa já está “bastante avançada” na implementação desse roteiro. “Grande parte disso já está em andamento e parte já está em produção — muito em controle de acesso, detecção e monitoramento de cadeia de pensamento. Uma parcela significativa já foi implementada ou está em implementação”, disse.

    Continua depois da publicidade

    Shah acrescentou que a estrutura também foi pensada para detectar formas mais sutis de dano. A sabotagem do trabalho, observou, “pode ser feita por persuasão — apresentando resultados falhos e escondendo os defeitos”, de forma que os usuários “cheguem a conclusões incorretas” — uma categoria que o artigo reconhece estar entre as mais difíceis de detectar.

    O roteiro, que a DeepMind rotulou como “v0.1”, é descrito como um trabalho em progresso que a empresa espera incorporar, no futuro, ao seu framework mais amplo de segurança para sistemas de fronteira.

    2026 Fortune Media IP Limited



    Fonte: Jovem Pan