Стаття Технології — 12 травня, 2020

Машина розумна: інтерв'ю з Артемом Чернодубом

ТЕКСТ:

ІЛЮСТРАЦІЇ: Каталіна Маєвська

Артем Чернодуб працює в компанії Grammarly на посаді Applied Research Scientist. Він розробляє системи штучного інтелекту для природної обробки мови. Куншт поговорив із Артемом про його роботу в одній із найкращих українських технологічних компаній, майбутнє штучного інтелекту і його застосування в продуктах Grammarly.

Моя спеціалізація – створення систем штучного інтелекту. Якщо конкретніше, це машинне навчання для природної обробки мови (з укр./англ. Machine Learning for Natural Language Processing). Моє захоплення цією темою почалося ще з часів навчання в інституті (прим. ред. – Артем закінчив Московський фізико-технічний інститут), до якого я вступав із бажанням стати програмістом.

Мій науковий керівник займався темою навчання з підкріпленням (можна сказати, що це алгоритми самонавчання роботів на власному досвіді), і мене це дуже зацікавило, тому я свій бакалаврський диплом присвятив саме цьому. Тоді я розробив систему керування для літака, яка мала перенавчитись, якщо літак пошкодиться.

Після завершення навчання повернувся до Києва. Мені пощастило, і я потрапив у дуже хорошу лабораторію, у відділ нейротехнологій одного з Інститутів НАН України, що належить до Кібцентру. Наша лабораторія виконувала багато наукових та науково-прикладних проєктів, зокрема для США та Південної Кореї. Відповідно, там було середовище для розвитку, висококваліфіковані співробітники та сучасні технології. Проєкт, яким я займався в аспірантурі, був пов’язаний із проблемою застосування штучних нейронних мереж для задач керування динамічними об’єктами (літаки, роботи тощо). Це був однорічний ґрант, спонсором якого стали Військово-повітряні сили США. Ми не проводили жодних закритих військових досліджень, це була відкрита теоретична робота. 

Про перехід в індустріальну сферу

В Україні, працюючи в НАНУ, вижити на зарплату науковця важко навіть з урахуванням ґрантових проєктів. Зараз ставка молодшого наукового співробітника – від 100 до 200 доларів на місяць. За грантом ВПС США мені платили 300 доларів на місяць. Цього вистачить, якщо ти студент або аспірант і тобі цікаво розвиватись, але час іде, і настає момент, коли у тебе з’являється родина і діти, утримувати яких на ці гроші нереально. Час від часу в Інституті з’являлись і прикладні проєкти, пов’язані із застосуванням систем штучного інтелекту, мені було цікаво застосовувати «розумні» алгоритми на практиці. Не було такого, аби я постійно на фултаймі працював лише над академічними проєктами. 

Окрім цього, штучний інтелект – це дуже прикладна сфера, у деяких фізиків навіть є думка, що це не наука взагалі. Напрямок ШІ має бути у постійному контакті зі споживачами та технологіями. Відповідно, лідерами розробок у цій сфері в усьому світі наразі є не наукові організації, а технологічні корпорації, як-от Facebook та Google. Тому, на мою думку, цілком правильний у цій галузі сценарій – піти працювати над реальними кейсами в індустрії. 

Про Grammarly 

Я щасливий тут працювати, це була і є моя компанія-мрія в плані самореалізації та умов роботи. Сервісом Grammarly наразі користуються понад 20 мільйонів людей щодня. Коли ти розробляєш якийсь алгоритм і його запускають працювати для реальних людей – це відчуття, яке важко передати, та одночасно серйозна відповідальність. Також у компанії неймовірна культура і високий професійний рівень членів глобальної команди, яка працює у Києві, Сан-Франциско, Нью-Йорку та Ванкувері.

Наш продукт – це онлайн-сервіс на основі штучного інтелекту для допомоги у написанні текстів англійською мовою. Історично, головне завдання, яке ми вирішували, полягало в перевірці формальної якості текстів ‒ орфографії, пунктуації й граматики. Цей напрям і досі є важливим для нашого продукту, однак наразі ми працюємо зі складнішими аспектами комунікації і постійно розширюємо функціонал Grammarly. Окрім правильності тексту, він також надає рекомендації щодо його чіткості, захопливості та тону, аби допомагати користувачам висловлювати свою думку лаконічніше та зрозуміліше, урізноманітнити набір слів і поліпшити інклюзивність мови. Вже зараз у нашому сервісі є можливість обрати мету, якої ви хочете досягти своїм повідомленням, і на її основі користувач бачитиме поради, релевантні цій меті. Такі можливості називають Beyond Grammatical Error Correction (з англ./укр. поза межами виправлення граматичних помилок).

Моя сфера діяльності – це розробка алгоритмів машинного навчання для вирішення таких задач. У машинному навчанні для того, щоб реалізувати якийсь алгоритм, треба робити це не звичайним способом, коли програміст спочатку осмислює алгоритм, будує у себе в голові аналітичні правила, а потім їх кодує. Замість цього, системі ШІ надаються приклади розв’язків задачі, а вона вже сама вирішує, як побудувати алгоритм. Для алгоритмів ШІ існує таке неписане правило, за яким він має застосовуватись там, де алгоритми, які розробляють звичайним способом, не можуть передбачити всі можливі випадки. Збираються певні дані, і за визначеними критеріями система автоматично навчається. Наразі найпопулярнішою технологією для вирішення таких задач є штучні нейронні мережі. Зрозуміти, як такі системи працюють, – це взагалі може бути окремим завданням. Підготовка таких моделей для навчання на текстах і є моєю головною функцією. Але це лише маленький клаптик усієї роботи, яка відбувається під час того, як Grammarly перевіряє тексти користувачів – до процесу залучена велика кількість різних алгоритмів.

Про порівняння сфер застосування алгоритмів ШІ

Сильний штучний інтелект — це питання створення «штучної людини», і, на мою думку, до цього ще багато десятків років. Я не займаюсь теорією ШІ, я практик. І мені наразі цікавіше розвиватися у створенні спеціалізованого штучного інтелекту, який апріорі є «слабким», тобто вирішує якусь конкретну задачу і не претендує на більше. 

Алгоритми машинного навчання можливо застосувати до будь-якого типу даних. Важко сказати, що галузь обробки текстів, обробки зображень або відео, керування авто чи приладами складніша, ніж інші. У кожній галузі є свої важкі задачі. 

Якщо все-таки порівнювати різні галузі, наприклад, обробку природної мови та обробку зображень, то в першому випадку непросто оцінювати результат роботи системи. Тому що для обробки зображень можна взяти людину без освіти і просити її, наприклад, розпізнавати помилки виявлення алгоритмом обличчя людей, і вона легко впорається з цим. У випадку з обробкою текстів все набагато складніше. Як експертів потрібно залучати кваліфікованих лінгвістів, які можуть сказати, де у редагуванні покращена якість і збережений зміст, а де – ні. У цьому сенсі обробка текстів складніша, ніж обробка зображень. 

Процес розробки наших систем ШІ зазвичай ітеративний. Рідко втілюється в життя сценарій, коли ми навчили нейромережу виконувати певну задачу – і все. З нами разом працюють лінгвісти, які, по-перше, допомагають формалізувати задачу, по-друге, аналізують якість роботи наших систем, класифікуючи їхні помилки. Потім ми працюємо над їх виправленням. 

Чи планується адаптація Grammarly до інших мов 

Наразі планів щодо виходу версій для інших мов у нас немає. Ми прагнемо зробити сервіс Grammarly доступним усюди, де може відбуватися письмова комунікація англійською мовою. Працюємо над удосконаленням наших технологій для втілення довгострокового бачення компанії: створення комплексного комунікаційного асистента для особистого та професійного спілкування англійською мовою. 

Головна проблема для розробки систем обробки штучної мови – це отримати дані для навчання та тестування «розумних» алгоритмів. Є навіть така байка, що розробники систем штучного інтелекту – це люди, які переносять відповідальність за якість роботи алгоритмів із себе на дані. В NLP (прим. ред. – Natural Language Processing, обробка природної мови) ці набори даних називають корпусами. Відповідно до цього існує класифікація low resource languages і high resource languages, тобто мови, для яких було зібрано мало таких корпусів і багато. Наприклад, англійська, німецька належать до high resource, а українська – до low resource. Цим і визначається можливість створювати різні системи та алгоритми. 

Алгоритми штучного інтелекту більш-менш універсальні. Можна взяти один метод класифікації й навчити його на текстах і для англійської, і для української мови. Але якщо для англійської дані для навчання є, то для української їх поки що немає. Коли будуть створені наукові центри, які цілеспрямовано займатимуться збором таких корпусів, розробка алгоритмів для обробки нашої мови стане можливою.

Про визначення тональності 

Нещодавно у Grammarly з’явився детектор тону, який використовує комбінацію правил та машинного навчання, щоб ідентифікувати у тексті сигнали, які формують його загальний тон. Він аналізує вибір слів, формулювань, пунктуацію та використання великих літер, щоб визначити, яке враження ваше повідомлення, ймовірно, створюватиме на читача. Ідентифікація тональності – це теж одне із сучасних складних завдань, що належить до Beyond Grammatical Error Correction. Наразі ми активно працюємо над поглибленням функціоналу детектора тону. У майбутньому він не лише визначатиме тон, але й надаватиме поради щодо його адаптації. 

Як визначити, чи настав уже час реалізовувати прикладне рішення для певної ідеї? Допомагає наука. У Grammarly хороша наукова культура. Співробітників відряджають на найкращі наукові та науково-практичні конференції з NLP, інколи ми робимо там власні доповіді. У нас є регулярний внутрішній науковий семінар. Про визначення тональності тексту на наукових конференціях говорять вже багато років. Так стає зрозуміло, що ця сфера, з точки зору передової науки, «дозріла» до трансформації в конкретний продукт. Якщо це можливо втілити і це може бути корисним для наших клієнтів, то ми починаємо цим займатись. 

Про нові тренди у сфері 

Зараз наступає розквіт NLP за рахунок створення так званих великих моделей мови (GPT-2, BERT і подібні), які вдалося навчити методом «навчання без вчителя» (з укр./англ. Unsupervised Learning). «Навчання без вчителя» означає, що не потрібна участь людей-лінгвістів для маркування, класифікації даних. Великі моделі мови демонструють кращі здібності у генеруванні текстів, мають велику потужність та універсальність. Серед науковців і практиків у сфері штучного інтелекту вони наразі дуже популярні. Ці моделі були навчені на величезних масивах текстів, за рахунок чого дозволяють класифікувати, виправляти тексти та навіть генерувати нові. На мою думку, саме в цьому напрямку буде відбуватися розвиток найближчим часом. Загалом для спеціалізованого штучного інтелекту одним із способів розділення задач є поділ на дискримінативні та генеративні. Для першого типу характерні задачі, де існують кілька варіантів і потрібно вибрати один або кілька правильних. Наприклад, є задача розпізнавання іменованих сутностей: треба кожне слово в тексті класифікувати – це ім’я людини чи географічної місцевості, чи ні те, ні інше. Зовсім інший вид задач застосовується, коли потрібно згенерувати текст. Наприклад, створити за журналістською статтею коротку анотацію до неї або видати текст для чатбота, що враховує поточний контекст. Це набагато складніші завдання, які містять елементи сильного штучного інтелекту. Те, що стосується дискримінативних моделей, зараз вже більш-менш зрозуміле і досліджене, але моделі генерування текстів, перекладів, спілкування чатботів зараз швидко розвиваються. Найближчі кілька років, на мою думку, це буде основним трендом в галузі.

Популярні статті

Стаття Суспільство — 27 березня

Як Росія завойовувала вплив у країнах Африки

Стаття Космос - 29 лютого

Куншткамера з Девідом Сперґелом про реліктове випромінювання, НАЯ (НЛО) та співпрацю з українськими науковцями

Стаття Пост правди - 25 березня

Пост правди, епізод 7: Анонімність в телеграмі