Como as deepfakes são criadas e como se proteger para não ser a próxima vítima?

Em um mundo digital com inteligência artificial, é difícil confiar completamente na nossa audição. Ao receber uma ligação de um número salvo, muitas vezes percebemos que algo está errado ao ouvir uma voz desconhecida. Nossa mente inconscientemente analisa o timbre, a maneira e a entonação da fala para garantir a identidade do interlocutor. Porém, com o avanço da tecnologia, especialmente com deepfakes, vozes falsas podem ser criadas, tornando-se mais difícil discernir a veracidade das informações auditivas.

Socorro, estou em apuros

Na primavera de 2023, golpistas no Arizona tentaram extorquir dinheiro de uma mulher via telefone, alegando ter sua filha de 15 anos em perigo. Embora a mãe tenha ouvido a voz da suposta filha implorando por ajuda, um homem desconhecido assumiu a ligação e exigiu um resgate. Preocupada, ela acreditou que a voz era autêntica, mas felizmente, descobriu logo depois que sua filha estava bem e que tinha sido vítima de fraude.

Não é possível ter 100% de certeza de que os invasores usaram um deepfake para imitar a voz da adolescente. Talvez o golpe tenha sido realizado por métodos tradicionais, como má qualidade da chamada, situação inesperada, estresse e a imaginação da mãe a levando a interpretar algo que não ouviu. Contudo, é importante reconhecer que deepfakes são uma ameaça real, pois sua evolução continua tornando-os mais convincentes e perigosos. Para combater a exploração dessa tecnologia por criminosos, é crucial compreender seu funcionamento.

O que são deepfakes?

A inteligência artificial Deepfake ( “deep learning” + “fake” ) tem crescido em ritmo acelerado nos últimos anos. O aprendizado de máquina pode ser usado para criar falsificações convincentes de imagens, vídeo ou conteúdo de áudio. Por exemplo, as redes neurais podem ser usadas em fotos e vídeos para substituir o rosto de uma pessoa por outro, preservando as expressões faciais e a iluminação. Embora inicialmente essas falsificações fossem de baixa qualidade e fáceis de detectar, à medida que os algoritmos se desenvolveram, os resultados se tornaram tão convincentes que agora é difícil distingui-los do real. Em 2022, o primeiro programa de TV de deepfake do mundo foi lançado na Rússia, onde deepfakes de Jason Statham, Margot Robbie, Keanu Reeves e Robert Pattinson interpretam os personagens principais.

Versões deepfake de estrelas de Hollywood na série de TV russa PMJason.

Conversão de voz

Atualmente nosso foco está na tecnologia usada para criar deepfakes de voz. Isso também é conhecido como conversão de voz (ou “clonagem de voz” se for criada uma cópia digital completa). A conversão de voz é baseada em codificadores automáticos, um tipo de rede neural que comprime os dados de entrada (parte do codificador) em uma representação interna compacta e, então, aprende a descompactá-los dessa representação (parte do decodificador) para restaurar o dados originais. Desta forma, o modelo aprende a apresentar os dados em um formato compactado enquanto destaca as informações mais importantes.

Para criar deepfakes de voz, duas gravações de áudio são alimentadas no modelo, com a voz da segunda gravação sendo convertida para a primeira. O codificador de conteúdo é usado para determinar o que foi dito a partir da primeira gravação, e o codificador de alto-falante é usado para extrair as principais características da voz da segunda gravação, ou seja, como a fala da segunda pessoa.

As representações comprimidas do que deve ser dito e como é dito são combinadas, e o resultado é gerado usando o decodificador. Assim, o que é dito na primeira gravação é dublado pela pessoa da segunda gravação.

Há outras abordagens que usam codificadores automáticos, por exemplo, com redes adversas generativas (GAN) ou modelos de difusão.

Como isso é feito

Existem muitas ferramentas open source gratuitas para fazer conversão de voz, mas não é tão fácil obter um resultado de alta qualidade com elas. É preciso experiência em programação em Python e boas habilidades de processamento, e mesmo assim a qualidade está longe de ser ideal. Além de fontes open source, também há soluções proprietárias e pagas disponíveis.

Por exemplo, no início de 2023, a Microsoft anunciou um algoritmo que poderia reproduzir uma voz humana com base em um exemplo de áudio com apenas três segundos! Esse modelo também funciona com vários idiomas, para que você possa até se ouvir falando um idioma estrangeiro. Tudo isso parece promissor, mas até agora tudo está apenas na fase de pesquisa. Mas a plataforma ElevenLabs permite aos usuários gerar deepfakes de voz sem nenhum esforço: basta carregar uma gravação de áudio da voz e das palavras a serem ditas, e pronto. É claro que, assim que a notícia se espalhou, as pessoas começaram a brincar com essa tecnologia de todas as maneiras possíveis.

Outros usos de deepfakes em fraudes

A tecnologia deepfake em si é inofensiva, mas nas mãos dos criminosos pode se tornar uma ferramenta perigosa, com muitas oportunidades de engano, difamação ou desinformação. Felizmente, não houve nenhum caso em massa de golpes envolvendo alteração de voz, mas houve vários casos de projeção envolvendo deepfakes de voz.

Em 2019, os fraudadores usaram essa tecnologia para enganar uma empresa de energia sediada no Reino Unido. Em uma conversa telefônica, o criminoso fingiu ser o executivo-chefe da controladora alemã da empresa e solicitou uma transferência urgente de 220 mil euros para a conta de uma determinada empresa fornecedora. Depois do pagamento ser feito, o estelionatário ligou mais duas vezes, a primeira para deixar a equipe do escritório do Reino Unido à vontade e reportar que a empresa-mãe já havia enviado um reembolso e a segunda vez para solicitar outra transferência. Todas as três vezes, o CEO do Reino Unido tinha absoluta certeza de que estava falando com seu chefe, porque reconheceu seu sotaque alemão, seu tom e maneira de falar.

A segunda transferência não foi enviada só porque o criminoso errou e ligou de um número austríaco em vez de alemão, o que deixou o CEO do Reino Unido desconfiado.

Um ano depois, em 2020, criminosos usaram deepfakes para roubar até 35 milhões de dólares de uma empresa japonesa não identificada.

O que vem por aí?

Hoje, a maior parte dessa tecnologia está nas mãos de grandes corporações, e sua disponibilidade ao público é limitada. Mas, como a história de modelos generativos muito mais populares como DALL-E, Midjourney e Stable Diffusion mostra, e ainda mais com grandes modelos de linguagem (ChatGPT, por exemplo), tecnologias semelhantes podem muito bem aparecer no domínio público no futuro previsível.

O passo mais promissor no desenvolvimento de deepfakes é a geração em tempo real, o que garantirá o crescimento explosivo de deepfakes (e fraudes baseadas nisso). Já imaginou uma videochamada com alguém cujo rosto e voz são completamente falsos? No entanto, esse nível de processamento de dados requer enormes recursos disponíveis apenas para grandes corporações, então as melhores tecnologias permanecerão privadas e os fraudadores não serão capazes de acompanhar os profissionais. A barra de alta qualidade também ajudará os usuários a aprender a identificar facilmente as falsificações.

Como se proteger

Por enquanto, a proteção contra falsificações de IA está apenas começando, então é importante ter em mente que as deepfakes são apenas mais um tipo de engenharia social avançada. O risco de se deparar com fraudes como essa é pequeno, mas ainda está lá, então vale a pena conhecer e ter em mente. Se você receber uma chamada estranha, preste atenção na qualidade do som.

É um tom monótono não natural, é ininteligível ou há ruídos estranhos? Sempre verifique as informações por meio de outros canais e lembre-se de que pegar de surpresa e induzir ao pânico são as principais armas dos fraudadores.

Fonte

Conte com a Brasiline para manter o ambiente tecnológico do seu negócio protegido

Nosso objetivo é garantir um alto nível de serviço e qualidade nos projetos, para que a sua TI seja usada de forma estratégica, a favor dos seus negócios e das pessoas envolvidas. Assim, sua empresa pode focar no que realmente interessa: no seu core business. Conte com nossos Experts e garanta para sua operação um suporte técnico ágil e eficiente.

Conheça nossos cases de sucesso
Entre em contato conosco

Mais Recentes

DarkGPTs: Cibercriminosos buscam IAs maliciosas para automatizar processos

Brasiline

6 de maio de 2024

De acordo com especialistas em IA e Cibersegurança, recentemente foi observado um notável aumento na disponibilidade de Linguagens Generativas maliciosas, […]