У цій статті ми розглянемо розвиток ШІ та сфери глибинного навчання. Глибинне навчання виникло в епоху комп’ютерів з вакуумними лампами. У 1958 році Френк Розенблатт з Корнельського університету розробив першу штучну нейронну мережу. Пізніше це було названо «глибинне навчання». Розенблат знав, що ця технологія перевершує обчислювальну потужність того часу. Він сказав… «Зі збільшенням вузлів з’єднання нейронних мереж… традиційні цифрові комп’ютери незабаром не зможуть нести навантаження обчислень».
На щастя, комп’ютерне обладнання швидко вдосконалювалося протягом десятиліть. Це робить обчислення приблизно в 10 мільйонів разів швидшими. У результаті дослідники у 21 столітті можуть впроваджувати нейронні мережі. Тепер існує більше з’єднань для моделювання більш складних явищ. Зараз глибинне навчання широко використовується в різних сферах. Його використовували в іграх, мовному перекладі, аналізі медичних зображень тощо.
Підйом глибинного навчання є сильним, але його майбутнє, ймовірно, буде непростим. Обчислювальні обмеження, про які турбується Розенблатт, залишаються хмарою, що нависає над сферою глибинного навчання. Сьогодні дослідники в галузі глибинного навчання розширюють межі своїх обчислювальних інструментів.
Як працює глибинне навчання
Глибинне навчання є результатом тривалого розвитку в області штучного інтелекту. Ранні системи штучного інтелекту базувалися на логіці та правилах, заданих експертами-людьми. Поступово з’явилися параметри, які можна регулювати шляхом навчання. Сьогодні нейронні мережі можуть навчитися створювати дуже пластичні комп’ютерні моделі. Вихід нейронної мережі більше не є результатом однієї формули. Тепер він використовує надзвичайно складні операції. Досить велика модель нейронної мережі може відповідати будь-якому типу даних.
Існує різниця між «підходом до експертної системи» та «підходом до гнучкої системи». Розглянемо ситуацію, коли рентгенівський знімок використовується для визначення наявності у пацієнта раку. Рентгенограма буде мати кілька компонентів і функцій. Однак ми не дізнаємося, які з них важливі.
Експертні системи підходять до розв’язання проблеми за допомогою експертів. В цьому випадку фахівці в області радіології та онкології. Вони вказуватимуть важливі змінні та дозволять системі досліджувати лише ці змінні. Цей метод вимагає невеликих розрахунків. Таким чином, він отримав широке застосування. Але якщо експертам не вдасться визначити ключові змінні, то системний звіт буде невдалим.
Те, як гнучкі системи розв’язують проблеми, полягає в дослідженні якомога більшої кількості змінних. Потім система сама вирішує, які з них важливі. Для цього потрібно більше даних і вищі обчислювальні витрати. Крім того, він менш ефективний, ніж експертні системи. Однак, враховуючи достатньо даних і обчислень, гнучкі системи можуть перевершити експертні системи.
Моделі глибинного навчання мають величезні параметри
Моделі глибинного навчання є «надпараметризованими». Це означає, що для навчання доступно більше параметрів, ніж точок даних. Наприклад, нейронна мережа системи розпізнавання зображень може мати 480 мільйонів параметрів. Однак він буде навчений лише за допомогою 1,2 мільйона зображень. Наявність величезних параметрів часто призводить до «переобладнання». Це означає, що модель занадто добре відповідає набору навчальних даних. Таким чином, система може пропустити загальну тенденцію, але отримати деталі.
Глибинне навчання вже показало свої таланти в галузі машинного перекладу. Раніше програмне забезпечення для перекладу перекладало відповідно до правил, розроблених експертами з граматики. У перекладі таких мов, як урду, арабська та малайська, методи на основі правил спочатку перевершували методи глибинного навчання на основі статистики. Але в міру того, як текстові дані збільшуються, глибинне навчання тепер перевершує інші методи за всіма напрямками. Виявилося, що глибинне навчання є кращим майже у всіх областях застосування.
Величезні обчислювальні витрати
Правило, яке застосовується до всіх статистичних моделей, полягає в тому, що для підвищення продуктивності на K вам потрібні 2K даних для навчання моделі. Крім того, існує проблема надмірної параметризації моделі глибинного навчання. Таким чином, щоб збільшити продуктивність на K, вам знадобиться щонайменше 4K від обсягу даних. Простіше кажучи, щоб учені могли покращити продуктивність моделей глибинного навчання, вони повинні створювати більші моделі. Ці більші моделі будуть використовуватися для навчання. Однак наскільки дорого коштуватиме створення більших моделей для навчання? Чи буде це занадто високо, щоб ми могли собі це дозволити й таким чином стримувати поле?
Щоб дослідити це питання, вчені з Массачусетського технологічного інституту зібрали дані з понад 1000 наукових статей про глибинне навчання. Їх дослідження попереджає, що глибинне навчання стикається з серйозними проблемами.
Розглянемо як приклад класифікацію зображень. Зменшення помилок класифікації зображень вимагає величезного обчислювального навантаження. Наприклад, можливість навчання системи глибинного навчання на графічному процесорі (GPU) була вперше продемонстрована у 2012 році. Це було зроблено за допомогою моделі AlexNet. Однак на навчання з використанням двох графічних процесорів знадобилося 5-6 днів. До 2018 року інша модель, NASNet-A, мала вдвічі менше помилок, ніж AlexNet. З усім тим, він використав більш ніж у 1000 разів більше обчислень.
Чи покращення продуктивності чипа встигає за розвитком глибинного навчання? зовсім ні. З більш ніж 1000-кратного збільшення обчислень NASNet-A лише 6-кратне покращення відбувається завдяки кращому апаратному забезпеченню. Решта досягається коштом використання більшої кількості процесорів або тривалої роботи з вищими витратами.
Практичні дані набагато більше, ніж їхні розрахунки
Теоретично, щоб підвищити продуктивність у K фактор, нам потрібно на 4K більше даних. Однак на практиці для обчислення потрібен коефіцієнт щонайменше 9K. Це означає, що для зменшення рівня помилок вдвічі потрібно більше ніж у 500 разів більше обчислювальних ресурсів. Це досить дорого, правда, дуже дорого. Навчання моделі розпізнавання зображень з частотою помилок менше ніж 5% обійдеться в 100 мільярдів доларів. Електроенергія, яку він споживає, створюватиме викиди вуглецю, еквівалентні місячним викидам вуглецю в Нью-Йорку. Якщо ви навчите модель розпізнавання зображень із частотою помилок менше ніж 1%, вартість буде ще вищою.
До 2025 року рівень помилок оптимальної системи розпізнавання зображень знизиться до 5%. Однак навчання такої системи глибинного навчання призвело б до викидів вуглекислого газу в Нью-Йорку, еквівалентних кількості викидів вуглекислого газу за місяць.
Тягар витрат на обчислення став очевидним на передньому краї глибинного навчання. OpenAI, аналітичний центр машинного навчання, витратив понад 4 мільйони доларів на розробку та навчання. Компанії також починають уникати обчислювальної вартості глибинного навчання. Велика мережа супермаркетів у Європі нещодавно відмовилася від системи, заснованої на глибинному навчанні. Система мала передбачити, які продукти будуть куплені. Керівництво компанії дійшло висновку, що вартість навчання та експлуатації системи занадто висока.