En 2018, un grand fan de Nicholas Cage nous a montré à quoi ressemblerait The Fellowship of the Ring si Cage jouait le rôle de Frodon, Aragorn, Gimly et Legolas. La technologie qu'il a utilisée était deepfake, un type d'application qui utilise des algorithmes d'intelligence artificielle pour manipuler des vidéos. Que ça soit en tant qu'agence de conception intelligence artificielle ou agence de communication, cela ne peut qu'intéresser Ewolis !
Les Deepfakes sont surtout connus pour leur capacité à échanger les visages des acteurs d'une vidéo à l'autre. Ils sont apparus pour la première fois en 2018 et sont rapidement devenus célèbres après avoir été utilisés pour modifier des vidéos pour adultes pour présenter les visages d'acteurs et de politiciens hollywoodiens.
Au cours des deux dernières années, les deepfakes ont suscité beaucoup d'inquiétude face à la montée en puissance d'une nouvelle vague de vidéos trafiquées par l'IA qui peuvent diffuser de fausses nouvelles et permettre aux faussaires et aux fraudeurs.
Le «deep» dans deepfake vient de l'utilisation du deep learning , la branche de l'IA qui est devenue très populaire au cours de la dernière décennie. Les algorithmes d'apprentissage en profondeur imitent à peu près les capacités d'apprentissage basées sur l'expérience des humains et des animaux. Si vous les formez sur suffisamment d'exemples d'une tâche, ils pourront la reproduire dans des conditions spécifiques.
L'idée de base est de former un ensemble de réseaux de neurones artificiels , le composant principal des algorithmes d'apprentissage profond, sur de multiples exemples d'acteurs et de visages cibles. Avec suffisamment de formation, les réseaux de neurones pourront créer des représentations numériques des caractéristiques de chaque visage. Ensuite, tout ce que vous avez à faire est de recâbler les réseaux de neurones pour mapper le visage de l'acteur sur la cible.
Auto-encodeurs
Les algorithmes de deep learning se présentent sous différents formats. Beaucoup de gens pensent que les deepfakes sont créés avec des réseaux antagonistes génératifs (GAN) , un algorithme de deep learning qui apprend à générer des images réalistes à partir du bruit. Et c'est vrai, il existe des variantes de GAN qui peuvent créer des deepfakes.
Mais le principal type de réseau neuronal utilisé dans les deepfakes est le «codeur automatique». Un autoencoder est un type spécial d'algorithme de deep learning qui effectue deux tâches. Premièrement, il encode une image d'entrée en un petit ensemble de valeurs numériques. (En réalité, il pourrait s'agir de n'importe quel autre type de données, mais puisque nous parlons de deepfakes, nous nous en tiendrons aux images.) L'encodage se fait à travers une série de couches qui commencent par de nombreuses variables et deviennent progressivement plus petites jusqu'à ce qu'elles atteindre une couche de «goulot d'étranglement». La couche de goulot d'étranglement contient le nombre cible de variables.
Ensuite, le réseau neuronal décode les données dans la couche de goulot d'étranglement et recrée l'image d'origine.
Pendant la formation, l'auto-encodeur reçoit une série d'images. Le but de la formation est de trouver un moyen de régler les paramètres dans les couches de codeur et de décodeur afin que l'image de sortie soit aussi similaire que possible à l'image d'entrée.
Plus le domaine du problème est étroit, plus les résultats de l'auto-encodeur deviennent précis. Par exemple, si vous entraînez un auto-encodeur uniquement sur les images de votre propre visage, le réseau de neurones trouvera éventuellement un moyen d'encoder les caractéristiques de votre visage (bouche, yeux, nez, etc.) dans un petit ensemble de valeurs numériques et utilisez-les pour recréer votre image avec une grande précision.
Vous pouvez considérer un auto-encodeur comme un algorithme de compression-décompression super intelligent. Par exemple, vous pouvez exécuter une image dans la partie codage du réseau neuronal et utiliser la représentation de goulot d'étranglement pour un petit stockage ou un transfert réseau rapide de données. Lorsque vous souhaitez afficher l'image, il vous suffit d'exécuter les valeurs codées dans la moitié de décodage et de la remettre à son état d'origine.
Mais il y a d'autres choses que l'autoencodeur peut faire. Par exemple, vous pouvez l'utiliser pour réduire le bruit ou générer de nouvelles images.
Auto-encodeurs Deepfake
Les applications Deepfake utilisent une configuration spéciale d'autoencodeurs. En fait, un générateur de deepfake utilise deux auto-encodeurs, l'un formé sur le visage de l'acteur et l'autre entraîné sur la cible.
Une fois les auto-encodeurs formés, vous changez leurs sorties et quelque chose d'intéressant se produit. Le codeur automatique de la cible prend des images vidéo de la cible et encode les traits du visage en valeurs numériques au niveau du calque de goulot d'étranglement. Ensuite, ces valeurs sont transmises aux couches de décodeur de l'autoencodeur d'acteur. Ce qui ressort est le visage de l'acteur avec l'expression faciale de la cible.
En un mot, l'autoencodeur saisit l'expression faciale d'une personne et la mappe sur le visage d'une autre personne.
Entraîner le codeur automatique deepfake
Le concept de deepfake est très simple. Mais la formation demande un effort considérable. Supposons que vous souhaitiez créer une version deepfake de Forrest Gump mettant en vedette John Travolta au lieu de Tom Hanks.
Tout d'abord, vous devez assembler l'ensemble de données d'entraînement pour les auto-encodeurs de l'acteur (John Travolta) et de la cible (Tom Hanks). Cela signifie rassembler des milliers d'images vidéo de chaque personne et les recadrer pour ne montrer que le visage. Idéalement, vous devrez inclure des images sous différents angles et conditions d'éclairage afin que vos réseaux de neurones puissent apprendre à coder et à transférer différentes nuances des visages et des environnements. Ainsi, vous ne pouvez pas simplement prendre une vidéo de chaque personne et recadrer les images vidéo. Vous devrez utiliser plusieurs vidéos. Il existe des outils qui automatisent le processus de recadrage, mais ils ne sont pas parfaits et nécessitent toujours des efforts manuels.
Le besoin de grands ensembles de données est la raison pour laquelle la plupart des vidéos deepfake que vous voyez ciblent des célébrités. Vous ne pouvez pas créer un deepfake de votre voisin à moins d'avoir des heures de vidéos d'eux dans différents paramètres.
Après avoir rassemblé les ensembles de données, vous devrez entraîner les réseaux de neurones. Si vous savez coder des algorithmes d'apprentissage automatique , vous pouvez créer vos propres auto-encodeurs. Vous pouvez également utiliser une application deepfake telle que Faceswap, qui fournit une interface utilisateur intuitive et montre la progression du modèle d'IA au fur et à mesure de la formation des réseaux de neurones.
Selon le type de matériel que vous utilisez, la formation et la génération deepfake peuvent durer de plusieurs heures à plusieurs jours. Une fois le processus terminé, vous aurez votre vidéo deepfake. Parfois, le résultat ne sera pas optimal et même l'extension du processus de formation n'améliorera pas la qualité. Cela peut être dû à de mauvaises données d'entraînement ou au choix de la mauvaise configuration de vos modèles de deep learning. Dans ce cas, vous devrez réajuster les paramètres et redémarrer l'entraînement à partir de zéro.
Dans d'autres cas, il existe des problèmes mineurs et des artefacts qui peuvent être lissés avec certains travaux VFX dans Adobe After Effects.
Dans tous les cas, à leur stade actuel, les deepfakes ne sont pas un processus de clic. Ils se sont beaucoup améliorés, mais ils nécessitent encore beaucoup d'efforts manuels.
Détecter les deepfakes
Les vidéos manipulées ne sont pas nouvelles. Les studios de cinéma les utilisent au cinéma depuis des décennies. Mais auparavant, ils nécessitaient d'énormes efforts de la part d'experts et l'accès à du matériel de studio coûteux. Bien que ce ne soit pas encore anodin, les deepfakes mettent la manipulation vidéo à la disposition de tous. Fondamentalement, quiconque a quelques centaines de dollars à dépenser et les nerfs pour passer par le processus peut créer un deepfake à partir de son propre sous-sol.
Naturellement, les deepfakes sont devenus une source d'inquiétude et sont perçus comme une menace pour la confiance du public. Les agences gouvernementales, les laboratoires de recherche universitaires et les entreprises de médias sociaux sont tous engagés dans des efforts pour créer des outils capables de détecter les vidéos trafiquées par l'IA.
Facebook étudie la détection des fausses informations pour empêcher la diffusion de fausses nouvelles sur son réseau social. La Defense Advanced Research Projects Agency (DARPA), la branche de recherche du département américain de la Défense, a également lancé une initiative pour arrêter les deepfakes et autres outils de désinformation automatisés. Et Microsoft a récemment lancé un outil de détection deepfake avant les élections présidentielles américaines.
Les chercheurs en IA ont déjà développé divers outils pour détecter les deepfakes. Par exemple, les deepfakes antérieurs contenaient des artefacts visuels tels que des yeux non clignotants et des variations de couleur de peau non naturelles. Un outil signalait les vidéos dans lesquelles les gens ne clignotaient pas ou ne clignotaient pas à des intervalles anormaux.
Une autre méthode plus récente utilise des algorithmes de deep learning pour détecter les signes de manipulation sur les bords des objets dans les images. Une approche différente consiste à utiliser la blockchain pour établir une base de données de signatures de vidéos confirmées et à appliquer un apprentissage en profondeur pour comparer les nouvelles vidéos à la vérité terrain.
Mais la lutte contre les deepfakes s'est effectivement transformée en une poursuite du chat et de la souris. À mesure que les deepfakes s'améliorent constamment, nombre de ces outils perdent de leur efficacité. Comme me l'a dit un professeur de vision par ordinateur l'année dernière : «Je pense que les deepfakes sont presque comme une course aux armements. Parce que les gens produisent des deepfakes de plus en plus convaincants et qu'un jour, il pourrait devenir impossible de les détecter.
Cet article a été initialement publié par Ben Dickson sur TechTalks , une publication qui examine les tendances de la technologie, comment elles affectent la façon dont nous vivons et menons nos affaires, et les problèmes qu'elles résolvent. Mais nous discutons également du côté pervers de la technologie, des implications plus sombres des nouvelles technologies et de ce que nous devons rechercher. Vous pouvez lire l'article original ici.