ОСТАННІЙ ПОДКАСТ
Підписуйся на найнауковішу розсилку!
І отримуй щотижневі новини науки і технологій

    Ми під'їдаємо крихти cookies за вами. Навіщо це нам?

    Читати

    Пардон за відволікалочку. Допоможи Куншт бути незалежним!

    Пардон за відволікалочку. Допоможи Куншт бути незалежним!

    Повідомлення успішно надіслано

    Для пошуку
    введіть назву запису
    Технології — 21.04.20
    ТЕКСТ: Діана Сяркі
    Ілюстрації: Каталіна Маєвська
    Ми любимо тексти без помилок. Якщо ви все ж таки щось знайшли, виділіть фрагмент і натисніть
    Ctrl+Enter.
    Бреше і не червоніє

    Чи можна використовувати глибинні фейки для добра і як вони працюють? В межах проєкту «Куншткамера» Куншт поговорив з Аюшем Бансалом, спеціалістом з цієї технології, який працює в Університеті Карнегі-Меллон. Ми так надихнулися розмовою з Аюшем, що вирішили розповісти більше про діпфейки: що, як, чому.

    «Наразі це не кінець. Це навіть не початок кінця. Але це, мабуть, кінець початку», – сказав Вінстон Черчилль під час битви в Північній Африці, передбачаючи закінчення Другої світової війни. Проте він навіть не здогадувався, що одного разу ми зможемо не просто читати і слухати його промову, а й дивитися відео.1 Для цього потрібні лише фотографія й аудіозапис. Далі штучний інтелект зробить усе сам.

     

    Уявіть, що ви можете не читати книжки Черчилля, а переглянути фільм, де він розповідає історію очима очевидця. Така аудіовізуальна книжка буде глибинним фейком, проте вона може значно пожвавити інтерес до історії й зробити навчання більш інтерактивним. Термін deepfakes поєднує такі поняття як «глибинне навчання» (deep learning) і «фейк» (fake). Тобто глибинні фейки – це підроблені відео, які здаються справжніми.

     

    До чого тут гугл-перекладач

     

    Для створення глибинних фейків використовують низку технологій, найвідоміші з яких – генерування комп’ютерної графіки (computer-generated imagery, CGI) і генеративні змагальні мережі (Generative adversarial networks, GANs).

     

    Перший метод використовують в анімації з 1970-80 років. Ним послуговуються для створення спецефектів у кінематографі, телебаченні та симуляторах. Наприклад, студія Pixar у 1995 році створила у такий спосіб мультфільм «Історія іграшок».

     

    Другий метод допомагає переносити будь-яку міміку (рух брів, голови, усмішку тощо) від «обличчя-джерела» на будь-яке інше обличчя. Генеративні змагальні мережі – це клас алгоритмів машинного навчання без учителя, яке реалізуються двома штучними нейронними мережами. Одна мережа – генератор – синтезує зображення. Друга мережа – дискримінатор – оцінює створені генератором зразки. Спочатку дискримінатор отримує вхідні навчальні дані про те, як мають виглядати якісні зображення. Потім з вхідних файлів генератор синтезує зображення, які дискримінатор порівнює з навчальними даними. Обидві мережі навчаються, допоки генератор не створить зображення, яке дискримінатор визначить як найбільш відповідне вхідним даним. Генеративні змагальні мережі запровадив нинішній директор з машинного навчання в Apple Inc. Ян Ґудфелоу у 2014 році.

     

    Науковці з Каліфорнійського університету в Берклі вдосконалили напрацювання Ґудфелоу й отримали Cycle-GAN – циклічні генеративні змагальні мережі.2 Принцип цього алгоритму нагадує подвійне навчання для машинного перекладу, який використовують для перевірки якості перекладу.

     

    Припустімо, що ми хочемо перекласти в гугл-перекладачі слово «світ» з англійської мови на французьку. Як дізнатися, що слово перекладене правильно, коли геть не знаєш французької? Зробити зворотний переклад. Спочатку вводимо англійською слово «world», французькою отримуємо «monde», далі натискаємо кнопку «поміняти місцями мови». Якщо французьке слово «monde», перекладеться англійською як «world» – переклад правильний. Так само Cycle-GAN аналізує, наскільки вихідні просторові характеристики збігаються з вхідними, і перетворює одне зображення в стиль іншого. Припустімо, у нас є дві картинки. На одній зображена зебра, на другій – кінь. Ця технологія переносить забарвлення зебри на коня, і от ми отримуємо фото коня, який має вигляд зебри.

     

    Однак згенероване у такий спосіб відео залишається дещо деформованим. Адже відео – це послідовна зміна кадрів протягом певного часу. Cycle-GAN не враховує часові обмеження. Це виправили науковці з Інституту робототехніки Університету Карнегі-Меллон (США), серед яких Аюш Бансал. Вони врахували просторові та часові обмеження відео, розробивши технологію, відому як Recycle-GAN. Бансал пояснює, що, маючи три слова, ми можемо передбачити, яким буде четверте, п’яте слово завдяки контексту. Так само з генеруванням відео. Маючи кадри та контекст, можна передбачити наступні кадри. Враховуючи часові обмеження відео, алгоритм реконструює наступний кадр і синтезує реалістичний аудіовізуальний продукт.

     

    Добра багато не буває

     

    Завдяки технології Recycle-GAN штучний інтелект генерує різноманітні відео. Можна синтезувати відео, у якому Барак Обама говорить слова Дональда Трампа. Або зробити відео, у якому промову, сказану Ангелою Меркель, озвучить Карлсон. Ба більше, ви можете скористатися безкоштовною демоверсією програми,3 яка перетворює надиктований вами текст на відео, озвучене одним із відомих діячів (Стівен Гокінг, Барак Обама, Нельсон Мандела, Джон Кеннеді, Тереза Мей, Опра Вінфрі, Білл Клінтон, Такео Канаде).

     

    Recycle-GAN дозволяє копіювати не тільки міміку на обличчі й рухи тіла, а навіть наслідувати природу. Науковці перенесли механізм розцвітання однієї квітки на іншу, згенерували схід/захід сонця.4 Задокументувавши одного разу схід сонця, на його основі та будь-якому відео з заходом сонця штучний інтелект може синтезувати захід сонця.

     

    Наукові напрацювання Бансала дозволяють створювати інтерактивні інструменти для навчання, генерувати аудіовізуальні книжки. Візьмімо Ернеста Гемінґвея. Технології дозволяють оживити американського письменника і створити відео, у яких він зачитуватиме свої твори. До того ж технології 4D-візуалізації динамічних подій допомагають оцифровувати нематеріальну спадщину (як-от озвучувати книжки Черчилля), записувати культурні й спортивні події з багатьох ракурсів і створювати цілісне зображення, вдосконалювати віртуальні телеконференції, зокрема для галузі медицини. Учений наголошує, що його ціль – вдосконалити людську комунікацію за допомогою технологій. Адже через особливості сприйняття інформації та ментальні моделі людям складно точно донести свою думку іншим. Застосунки зі зрозумілим інтерфейсом у вільному доступі допоможуть людям візуалізувати свої думки, щоб зменшити їхнє викривлення.

     

    Технології допомагають розвивати бізнес і створювати інноваційні продукти. Зокрема, для розробки інтерактивних уроків, безпілотних автомобілів і фільмів. Згадаймо історію сьомої частини фільму «Форсаж». Актор Пол Волкер загинув ще до завершення зйомок, проте команді вдалося завершити фільм попри відсутність деяких кадрів з актором. Закінчити фільм допомогли дублери, яким змінили лице за допомогою CGI.

     

    І між доброю капустою багато гнилих качанів

     

    Звісно, технології, зокрема Recycle-GAN, можуть використовувати для поширення дезінформації. За даними нідерландської компанії Deeptrace, у 2019 році кількість глибинних фейків в інтернеті становила понад 14 тисяч відео. У грудні 2018 році кількість таких відео сягала близько восьми тисяч, тобто всього за сім місяців кількість глибинних фейків зросла на 84%. Варто зазначити, що 96% такого контенту – це порнографія. Лише чотири відсотки відео стосуються медіа, політики та бізнесу.

     

    Свого часу створити глибинний фейк Бансала попросив американський телевізійний продюсер Рік Себак зі Пітсбурга. На відео5 молодий Рік Себак розповідає, що в майбутньому буде легко маніпулювати записами, тому розумно не вірити всьому, що ми чуємо і бачимо. Проте ці слова Рік сказав лише минулого року, у віці 65 років.

     

    Однак ця технологія також виявляє глибинні фейки. Згенероване комп’ютером і реальне відео мають різні характеристики, які штучний інтелект може розпізнавати автоматично. Науковців більше хвилюють так звані shallowfakes – неглибокі, поверхові фейки. Цей термін ввів Сем Ґреґорі, програмний директор правозахисної організації Witness. Поняття shallowfakes стосується відредагованих відео. Їх можуть сповільнювати/пришвидшувати, перетасовувати кадри, виривати слова з контексту. Посібник The Washington Post щодо маніпулювання у відеозаписах визначає три види втручань: недостатній контекст (missing context), редагування, яке викривляє інформацію (deceptive editing), зловмисна фабрикація вмісту (malicious transformation).6

     

    Наприклад, у США shallowfake зі спікеркою Палати представників Конгресу Ненсі Пелосі став вірусним.7 На відео американська політикиня нібито виступає на конференції у нетверезому стані. Однак запис з виступом Ненсі Пелосі просто уповільнили. 

     

    Такі зміни складно відстежувати вручну. Станом на травень 2019 року щохвилини на ютуб завантажують 500 годин відео.8 Тому науковці працюють над пошуком інструментів, які будуть автоматично виявляти втручання у відео й маркувати shallowfakes. Те саме стосується глибинних фейків, згенерованих комп’ютером. Потрібно маркувати такий контент, щоб не вводити людей в оману. Різновидом маркування можуть бути вбудовані у відео водяні знаки. Або використання плагіну для браузера, що зможе автоматично ідентифікувати фейкові відео. Поки що такий плагін в розробці, ним займається Фундація штучного інтелекту.9

     

    Важливо, щоб великі компанії повідомляли користувачам про фейкові відео. У січні 2020 року в Facebook оголосили, що видалятиме глибинні фейки, створені штучним інтелектом, і shallowfakes, які спотворюватимуть оригінальні відео. Проте така політика не поширюється на сатиру та пародію.10

     

    Будь-яка технологія за своєю природою нейтральна. Вона перестає бути такою, коли потрапляє до рук зацікавлених сторін. Далі в гру вступають законодавства країн, політики великих корпорацій і відкритий діалог громадськості з науковцями, філософами, політиками, бізнесменами про етичне використання технологій.

    ТЕКСТ: Діана Сяркі
    Ілюстрації: Каталіна Маєвська
    Статті
    Промо
    Проєкт інтелект. Воєнний сезон. Епізод 5: NFT та Україна

    Чи можна написати «Проєкт інтелект» на гривні й продати за мільйони доларів як NFT?

    Людина
    Від батька до сина: що таке генеалогія і як досліджувати свій рід

    Що таке ДНК-генеалогія і як далеко кожний з нас може просунутися у вивченні свого роду?

    Наука
    Екологічно чиста отрута: уривок з книжки «Зоологічна екскурсія супермаркетом»

    Чому краще утриматися від «дикого» промислу морепродуктів, особливо у водоймах, де цвіте вода?

    Наука
    Передумови приходу диктаторів до влади: Італія, Німеччина, РФ

    Що стало передумовами приходу диктаторів до влади на прикладі фашистської Італії, нацистської Німеччини та путінської росії? Розповідає співавтор і ведучий каналу «Історія Без Міфів» Владлен Мараєв.

    Людина
    Як кожен з нас може подякувати військовим і допомогти їм з адаптацією

    Як змінюється світосприйняття військових і що ми можемо зробити, аби висловити їм вдячність і допомогти в адаптації до мирного життя?

    Біологія
    Не тільки в історії. Який слід залишить війна в наших генах

    Як війни, голод та важкі психологічні травми залишають слід у геномі людини й чи можемо ми на це якось повпливати?