Humanos não detectam mais de 25% dos deepfakes de fala
12/9/2023 –
Segundo pesquisa da University College London, apenas em 73% das vezes humanos foram capazes de perceber falas geradas artificialmente; estudo também revelou que detectores automatizados desempenham melhor que humanos na discriminação de informações
Um estudo da UCL (University College London) revelou que, em 27% dos casos apresentados aos participantes, eles não foram capazes de determinar se a fala que ouviam era real ou um deepfake.
Estas mídias sintéticas são produtos da IA generativa, um subconjunto de algoritmos de “machine learning” (“aprendizado de máquina”, em tradução livre) que aprende os padrões de um conjunto de dados. Ou seja, a partir de dados e arquivos reais, os algoritmos geram conteúdo sintético semelhante aos originais. Logo, as novas mídias, criadas pela IA generativa, se parecem com humanos e suas ações.
Enzo Pimentel Nassif, especialista na área de segurança cibernética e AI, explica que Deepfakes são conteúdos de mídia, como vídeos, imagens ou áudios, que foram manipulados usando técnicas avançadas de Inteligência Artificial (IA) para criar um conteúdo falso que parece real.
A pesquisa realizou análises em inglês e mandarim, e identificou que a dificuldade de detecção independe do idioma. Além disso, os participantes foram expostos a dois tipos de configuração diferentes, unário e binário. No modelo unário de avaliação, os participantes tiveram acesso a 20 clipes de áudio distintos, sem saber a proporção de deepfakes e áudios originais neste conjunto, e precisaram apontar quais eram falsos.
Na configuração binária, foi apresentada a mesma quantidade de clipes de áudio organizados em pares, um deepfake e um original, com a mesma frase falada, e os participantes deviam indicar os falsos. O objetivo desta configuração era medir se esta informação ajudaria na detecção. Funcionou: em 85,5% das vezes os participantes acertaram, contra 70,3% no modelo unário. No entanto, este não é um cenário real para humanos identificarem deepfakes.
Enzo aponta a seriedade da questão e afirma que a porcentagem apresentada ainda é muito alta. “A pesquisa mostra a necessidade urgente de soluções mais avançadas para enfrentar essa ameaça crescente à integridade da mídia”.
Nassif explica que é urgente lançar luz sobre o assunto e propagar conhecimento para o público em geral como forma de combater o uso prejudicial dessa ferramenta. No entanto, também destaca a importância dos profissionais, como técnicos de TI, de cyber security e de outras áreas, se manterem informados sobre o avanço da tecnologia e buscar meios de combater o mau uso da ferramenta e desenvolverem estratégias para a proteção proativa contra ameaças cibernéticas.
A precisão de detecção de deepfakes por humanos, no modelo mais parecido com a realidade, foi de 73%. Os autores do estudo consideraram que treinar humanos para detecção de deepfakes não traz resultados relevantes. Da mesma forma, os estudiosos apontaram que o tamanho do áudio, o tempo gasto ou o número de vezes que foi reproduzido não facilitaram a tarefa de detecção por humanos.
Desempenho de detectores automatizados
Os detectores automatizados apresentaram capacidade de detecção de 100% – apenas em fatores desconhecidos, como a identidade do locutor, classificaram erroneamente 25,3% de áudios reais como deepfakes. Para o profissional, a evolução das técnicas de deepfake exige uma abordagem contínua de adaptação das ferramentas de detecção e a colaboração entre diversos setores interessados para enfrentar este desafio.
Nassif reitera que a IA desempenha um papel crucial na cibersegurança contra deepfakes. A tecnologia é capaz de analisar padrões sutis em imagens e áudios para identificar inconsistências. “Redes Neurais Convolucionais (CNNs) e Processamento de Linguagem Natural (NLP) são usados para detectar artefatos em vídeos e áudios. Além disso, ferramentas como Autenticidade de Mídia Truepic e Deepware Scanner ajudam a identificar manipulação de mídia”, afirma.
A conclusão foi de que os humanos conseguem detectar deepfakes de fala, mas sem consistência, e que se baseiam nas características naturais do ser humano para identificar as mídias falsas. A tecnologia de síntese de fala, contudo, desenvolve habilidades naturais humanas que dificultam a identificação de deepfakes por humanos.
“Os especialistas, portanto, sugerem detectores automatizados para captar sutilezas que os humanos não conseguem e a constante atualização e desenvolvimento de ferramentas na área de Cybersecurity, AI e ML para garantir que a segurança estará sempre a um passo a frente com a ajuda da tecnologia.” complementa Enzo Nassif.