Что такое Deepfake: секреты умной технологии

Когда deepfake-видео с Илоном Маском, исполняющим песню «Трава у дома», появилось в сети, оно моментально набрало миллионы просмотров на , а фейковый аккаунт Тома Круза взорвал TikTok. Так что же такое deepfake, какие секреты скрывает эта технология, и как на самом деле нейросеть стала самообучаемой? Разбираемся вместе с iPavlov.

Начнём с того, что такое Deepfake (дипфейк). 


Это синтезированный нейронными сетями реалистичный аудио-, видео- или фото-контент. Термин включает и генерацию несуществующих фотографий (лиц, природы, картин — чего угодно), и face swap (перенос мимики одного человека на лицо другого), и озвучку предложений любым выбранным голосом, и оживление пейзажных фотографий (можно сделать подвижными изначально статичные снимки), а также всевозможные комбинации перечисленных пунктов. Современные технологии позволяют генерировать видео, которые достаточно трудно отличить от настоящего... 

Попробуйте сами: получится ли у Вас отличить deepfake от реального интервью Барака Обамы? 

Что стоит за Deepfake?

Разберём, как работает deepfake на примере. Наиболее впечатляющие результаты в развитии этой технологии дает использование генеративно-состязательных сетей (GANs — Generative Adversarial Networks), представляющих собой 2 нейронные сети, тренирующиеся одновременно: одна из них (генератор) учится генерировать новые экземпляры данных, а вторая (дискриминатор) «штрафует» первую за некачественный фейк, если видит, что характерные признаки созданной картинки сильно отличаются от настоящей. Эту концепцию, напоминающую игру в полицейского и фальшивомонетчика,  предложил в 2014-м году Ян Гудфеллоу (Ian Goodfellow).

Схема работы генеративно-состязательных сетей (GANs) — по сути, пример того, как создаётся deepfake.

«Чтобы обучить требовательную к вычислениям нейросеть, необходимы несколько суток расчетов, ну и конечно, мощный кластер видеокарт. Однако, этот подход даёт лучший результат!» - отмечает Лоран Акопян, генеральный директор iPavlov, исполнительный директор НИЦ АО «Швабе» в МФТИ, директор по разработке прикладного программного обеспечения Центра Компетенций НТИ по направлению «Искусственный интеллект».Одно из решений, созданных на основе технологии GANs, — это FSGAN для faceswap, трансфер лиц на видео, когда ваша мимика полностью передается другому человеку — коротко о том, как работает технология deepfake. Здесь одна нейросеть учится подгонять лицо донора под параметры целевого видео (поворот головы, наклон в сторону или вперед), вторая переносит черты лица, а третья занимается image blending  (слиянием изображений), чтобы картинка была более реалистичной, без разрывов или артефактов (частей изображения, которые снижают его реалистичность). Размытость части изображения, в частности, является примером артефакта.

Генерация лиц несуществующих людей на основе комбинации двух портретов с помощью StarGAN — одно из полезных свойств технологии deepfake.


Принципы архитектуры генеративно-состязательных сетей находят широкое применение в области Deepfake. И это отразилось на функциях этой технологии.

Где можно применять deepfake:

  • Генерация лиц несуществующих людей (StyleGAN2). Алгоритмы переноса стиля StyleGAN отделяют атрибуты высокого уровня (например, позы и лица) и низкого уровня (веснушки и волосы) и генерируют новое изображение без учителя. На основе этой архитектуры сайт под названием «This person does not exist» при каждом обновлении генерирует новый портрет несуществующего человека. Сеть обучили создавать не только новые лица, но и множество других объектов: например, автомобили, интерьеры — в целом, создавать deepfake не так уж сложно, и с каждым днём появляется всё больше специалистов, которые это умеют.
  • Комбинирование нескольких лиц людей и их трансформация в одно новое лицо (StarGAN).
  • Ретушь фото. Например, нейросеть MichiGan может редактировать прическу на фотографиях.
  • Улучшение качества изображений (SRGAN - Super Resolution).
  • Трансформация изображений  (Conditional GAN): для генерации вида здания по каркасу или одежды по скетчу, а также раскрашивания в определенные цвета.
  • Интерактивная генерация изображения по наброску (iGAN). GauGAN - программа от NVIDIA, которая превращает даже самые грубые наброски в фотореалистичные изображения.
  • Генерация новой картинки по описанию (StackGAN).
  • Генерация и стилизация видео по наброску (Vid2Vid).

Однако, не все детали подвластны генеративно-состязательным сетям. Исследователи из MIT CSAIL изучили, какие объекты генеративным нейросетям сложнее всего синтезировать. На примере датасета  LSUN churches они выяснили, что такие классы объектов, как люди, машины и ворота, игнорируются генератором нейросети. 

В качестве модели для семантической сегментации  (процесса разбиения изображения на родственные смысловые части) используется сеть семантического понимания Unified Perceptual Parsing . Нейросеть отмечает каждый пиксель (наименьший логический элемент/ячейку двумерного цифрового изображения), как принадлежащий объекту одного из 336 классов (количество классов, которые может распознавать конкретная сеть Unified Perceptual Parsing). Из оригинального изображения выделяются фрагменты, содержащие объекты. Данные фрагменты подаются на вход нейросети, решающей задачу создания картинки по наброску. 

COM_SPPAGEBUILDER_NO_ITEMS_FOUND