Глибинне навчання та ШІ стають кращими, але чи будуть користувачі платити?

У цій статті ми розглянемо розвиток ШІ та сфери глибинного навчання. Глибинне навчання виникло в епоху комп’ютерів з вакуумними лампами. У 1958 році Френк Розенблатт з Корнельського університету розробив першу штучну нейронну мережу. Пізніше це було названо «глибинне навчання». Розенблат знав, що ця технологія перевершує обчислювальну потужність того часу. Він сказав… «Зі збільшенням вузлів з’єднання нейронних мереж… традиційні цифрові комп’ютери незабаром не зможуть нести навантаження обчислень».

ai драйвер

На щастя, комп’ютерне обладнання швидко вдосконалювалося протягом десятиліть. Це робить обчислення приблизно в 10 мільйонів разів швидшими. У результаті дослідники у 21 столітті можуть впроваджувати нейронні мережі. Тепер існує більше з’єднань для моделювання більш складних явищ. Зараз глибинне навчання широко використовується в різних сферах. Його використовували в іграх, мовному перекладі, аналізі медичних зображень тощо.

Підйом глибинного навчання є сильним, але його майбутнє, ймовірно, буде непростим. Обчислювальні обмеження, про які турбується Розенблатт, залишаються хмарою, що нависає над сферою глибинного навчання. Сьогодні дослідники в галузі глибинного навчання розширюють межі своїх обчислювальних інструментів.

Як працює глибинне навчання

Глибинне навчання є результатом тривалого розвитку в області штучного інтелекту. Ранні системи штучного інтелекту базувалися на логіці та правилах, заданих експертами-людьми. Поступово з’явилися параметри, які можна регулювати шляхом навчання. Сьогодні нейронні мережі можуть навчитися створювати дуже пластичні комп’ютерні моделі. Вихід нейронної мережі більше не є результатом однієї формули. Тепер він використовує надзвичайно складні операції. Досить велика модель нейронної мережі може відповідати будь-якому типу даних.

Глибоке навчання

Існує різниця між «підходом до експертної системи» та «підходом до гнучкої системи». Розглянемо ситуацію, коли рентгенівський знімок використовується для визначення наявності у пацієнта раку. Рентгенограма буде мати кілька компонентів і функцій. Однак ми не дізнаємося, які з них важливі.

Експертні системи підходять до розв’язання проблеми за допомогою експертів. В цьому випадку фахівці в області радіології та онкології. Вони вказуватимуть важливі змінні та дозволять системі досліджувати лише ці змінні. Цей метод вимагає невеликих розрахунків. Таким чином, він отримав широке застосування. Але якщо експертам не вдасться визначити ключові змінні, то системний звіт буде невдалим.

Те, як гнучкі системи розв’язують проблеми, полягає в дослідженні якомога більшої кількості змінних. Потім система сама вирішує, які з них важливі. Для цього потрібно більше даних і вищі обчислювальні витрати. Крім того, він менш ефективний, ніж експертні системи. Однак, враховуючи достатньо даних і обчислень, гнучкі системи можуть перевершити експертні системи.

Моделі глибинного навчання мають величезні параметри

Моделі глибинного навчання є «надпараметризованими». Це означає, що для навчання доступно більше параметрів, ніж точок даних. Наприклад, нейронна мережа системи розпізнавання зображень може мати 480 мільйонів параметрів. Однак він буде навчений лише за допомогою 1,2 мільйона зображень. Наявність величезних параметрів часто призводить до «переобладнання». Це означає, що модель занадто добре відповідає набору навчальних даних. Таким чином, система може пропустити загальну тенденцію, але отримати деталі.

Глибинне навчання вже показало свої таланти в галузі машинного перекладу. Раніше програмне забезпечення для перекладу перекладало відповідно до правил, розроблених експертами з граматики. У перекладі таких мов, як урду, арабська та малайська, методи на основі правил спочатку перевершували методи глибинного навчання на основі статистики. Але в міру того, як текстові дані збільшуються, глибинне навчання тепер перевершує інші методи за всіма напрямками. Виявилося, що глибинне навчання є кращим майже у всіх областях застосування.

DL

Величезні обчислювальні витрати

Правило, яке застосовується до всіх статистичних моделей, полягає в тому, що для підвищення продуктивності на K вам потрібні 2K даних для навчання моделі. Крім того, існує проблема надмірної параметризації моделі глибинного навчання. Таким чином, щоб збільшити продуктивність на K, вам знадобиться щонайменше 4K від обсягу даних. Простіше кажучи, щоб учені могли покращити продуктивність моделей глибинного навчання, вони повинні створювати більші моделі. Ці більші моделі будуть використовуватися для навчання. Однак наскільки дорого коштуватиме створення більших моделей для навчання? Чи буде це занадто високо, щоб ми могли собі це дозволити й таким чином стримувати поле?

Щоб дослідити це питання, вчені з Массачусетського технологічного інституту зібрали дані з понад 1000 наукових статей про глибинне навчання. Їх дослідження попереджає, що глибинне навчання стикається з серйозними проблемами.

Розглянемо як приклад класифікацію зображень. Зменшення помилок класифікації зображень вимагає величезного обчислювального навантаження. Наприклад, можливість навчання системи глибинного навчання на графічному процесорі (GPU) була вперше продемонстрована у 2012 році. Це було зроблено за допомогою моделі AlexNet. Однак на навчання з використанням двох графічних процесорів знадобилося 5-6 днів. До 2018 року інша модель, NASNet-A, мала вдвічі менше помилок, ніж AlexNet. З усім тим, він використав більш ніж у 1000 разів більше обчислень.

Чи покращення продуктивності чипа встигає за розвитком глибинного навчання? зовсім ні. З більш ніж 1000-кратного збільшення обчислень NASNet-A лише 6-кратне покращення відбувається завдяки кращому апаратному забезпеченню. Решта досягається коштом використання більшої кількості процесорів або тривалої роботи з вищими витратами.

Практичні дані набагато більше, ніж їхні розрахунки

Теоретично, щоб підвищити продуктивність у K фактор, нам потрібно на 4K більше даних. Однак на практиці для обчислення потрібен коефіцієнт щонайменше 9K. Це означає, що для зменшення рівня помилок вдвічі потрібно більше ніж у 500 разів більше обчислювальних ресурсів. Це досить дорого, правда, дуже дорого. Навчання моделі розпізнавання зображень з частотою помилок менше ніж 5% обійдеться в 100 мільярдів доларів. Електроенергія, яку він споживає, створюватиме викиди вуглецю, еквівалентні місячним викидам вуглецю в Нью-Йорку. Якщо ви навчите модель розпізнавання зображень із частотою помилок менше ніж 1%, вартість буде ще вищою.

глибоке навчання

До 2025 року рівень помилок оптимальної системи розпізнавання зображень знизиться до 5%. Однак навчання такої системи глибинного навчання призвело б до викидів вуглекислого газу в Нью-Йорку, еквівалентних кількості викидів вуглекислого газу за місяць.

глибоке навчання

Тягар витрат на обчислення став очевидним на передньому краї глибинного навчання. OpenAI, аналітичний центр машинного навчання, витратив понад 4 мільйони доларів на розробку та навчання. Компанії також починають уникати обчислювальної вартості глибинного навчання. Велика мережа супермаркетів у Європі нещодавно відмовилася від системи, заснованої на глибинному навчанні. Система мала передбачити, які продукти будуть куплені. Керівництво компанії дійшло висновку, що вартість навчання та експлуатації системи занадто висока.

What’s your Reaction?
Cool
0
Cool
Happy
0
Happy
Shaking
0
Shaking
Interesting
0
Interesting
Sad
0
Sad
Angry
0
Angry
Читайте Gizchina в Google News

Сподобалась стаття? Подякуй редакції!

Джерело
Поділитися з друзями

Мене завжди цікавили IT-технології. І оскільки моя попередня багаторічна професійна діяльність (а це дизайн і додрукарська підготовка) неможлива без їх допомоги, то так вийшло, що всім, що було пов'язано з комп'ютерами (наприклад, збиранням і модернізацією "заліза", а також налаштуванням софта) мені завжди доводилося займатися самому.

Ну, а з появою в нашому житті гаджетів, сфера моїх інтересів розширилася й на них теж.

Люблю вивчати та аналізувати можливості різних пристроїв, і вже багато років, перш ніж придбати що-небудь нове, завжди дуже довго і ретельно вивчаю можливості кожної з потенційних моделей, проводжу досить тривалу і копітку роботу, читаю огляди, відгуки та порівняння.

Нагородою за витрачений час зазвичай є те, що найчастіше я дійсно отримую найкраще з того, що можна взяти в рамках запланованого мною бюджету.

Оцініть автора
( Поки що оцінок немає )
GizChina.Com.Ua

Глубокое обучение и ИИ становятся лучше, но будут ли пользователи платить?

В этой статье мы рассмотрим развитие ИИ и сферы глубокого обучения. Глубокое обучение возникла в эпоху компьютеров с вакуумными лампами.  В 1958 году Фрэнк Розенблатт из Корнельского университета разработал первую искусственную нейронную сеть.  Позже это было названо «глубокое обучение».  Розенблат знал, что эта разработка превосходит вычислительную мощность того времени.  Он сказал: «С увеличением узлов соединения нейронных сетей… традиционные цифровые компьютеры вскоре не смогут нести нагрузку вычислений».

ai драйвер

К счастью, компьютерное оборудование быстро усовершенствовалось в течение десятилетий.  Это делает вычисления примерно в 10 миллионов раз быстрее.  В результате исследователи в 21 веке могут внедрять нейронные сети.  Теперь существует большее количество соединений для моделирования более сложных явлений.  Сейчас глубокое обучение широко используется в разных сферах.  Его использовали в играх, языковом переводе, анализе медицинских изображений и т.д.

Подъем глубокого обучения сильный, но его будущее, вероятно, будет непростым.  Вычислительные ограничения, о которых беспокоится Розенблатт, остаются облаком, нависающим над сферой глубокого обучения.  Сегодня исследователи в области глубокого обучения расширяют границы своих вычислительных инструментов.

Как работает глубокое обучения

Глубокое обучение является результатом длительного развития в области искусственного интеллекта.  Ранние системы искусственного интеллекта базировались на логике и правилах, заданных экспертами-людьми.  Равномерно возникли характеристики, которые можно регулировать методом обучения.  Сегодня нейронные сети могут научиться создавать очень пластичные компьютерные модели.  Выход нейронной сети больше не результат одной формулы.  Теперь он использует очень сложные операции.  Достаточно большая модель нейронной сети может соответствовать любому типу данных.

Глибоке навчання

Существует разница между подходом к экспертной системе и подходом к гибкой системе.  Рассмотрим ситуацию, когда рентгеновский снимок используется для определения наличия у пациента рака.  Рентгенограмма будет иметь несколько компонентов и функций.  Однако мы не узнаем, какие из них важны.

Экспертные системы подходят к решению проблемы с помощью экспертов.  В этом случае специалисты в области радиологии и онкологии.  Они будут указывать на важные переменные и позволят системе исследовать только эти переменные.  Этот метод требует небольших расчетов.  Таким образом он получил широкое применение.  Но если экспертам не удастся определить ключевые переменные, системный отчет будет неудачным.

То, как гибкие системы решают проблемы, заключается в исследовании как можно большего количества переменных.  Затем система сама решает, какие из них важны.  Для этого требуется больше данных и более высокие вычислительные затраты.  Кроме того, он менее эффективен, чем экспертные системы.  Однако, учитывая достаточное количество данных и вычислений, гибкие системы могут превзойти экспертные системы.

Модели глубокого обучения имеют огромные параметры

Модели глубокого обучения являются «сверхпараметризированными».  Это означает, что для обучения доступно больше параметров, чем точек данных.  К примеру, нейронная сеть системы распознавания изображений может иметь 480 миллионов параметров.  Однако он будет обучен только с помощью 1,2 миллиона изображений.  Наличие больших характеристик часто приводит к «переоборудованию».  Это означает, что модель слишком хорошо соответствует набору обучающих данных.  Таким образом, система может упустить общую тенденцию, но получить детали.

Глубокое обучение уже показала свои таланты в области машинного перевода.  Ранее программное обеспечение для перевода переводило в соответствии с правилами, разработанными экспертами по грамматике.  В переводе на такие языки, как урду, арабский и малайский, методы на основе правил первоначально превосходили методы глубокого обучения на основе статистики.  Но по мере того, как текстовые данные увеличиваются, глубокое обучение теперь превосходит другие методы по всем направлениям.  Оказалось, что глубокое обучение лучше почти во всех областях применения.

DL

Огромные вычислительные расходы

Правило, которое применимо ко всем статистическим моделям, заключается в том, что для повышения производительности на K вам нужны 2K данных для обучения модели.  Кроме того, существует проблема излишней параметризации модели глубокого обучения.  Таким образом, чтобы увеличить производительность на K, вам понадобится не менее 4K от объема данных.  Проще говоря, чтобы учёные могли улучшить производительность моделей глубокого обучения, они должны создавать большие модели.  Эти более крупные модели будут использоваться для обучения.  Однако насколько дорого обойдется создание более крупных моделей для обучения?  Будет ли это слишком высоко, чтобы мы могли себе это позволить и сдерживать поле таким образом?

Чтобы исследовать этот вопрос, ученые из Массачусетского технологического института собрали данные из более чем 1000 научных статей о глубоком обучении.  Их исследование предупреждает, что глубокое обучение сталкивается с серьезными проблемами.

Рассмотрим в качестве примера классификацию изображений.  Уменьшение ошибок классификации изображений требует огромной вычислительной нагрузки.  К примеру, возможность обучения системе глубокого обучения на графическом процессоре (GPU) была впервые продемонстрирована в 2012 году.  Это было сделано с помощью модели AlexNet.  Однако на обучение с использованием двух графических процессоров ушло 5-6 дней.  До 2018 года другая модель NASNet-A имела вдвое меньше ошибок, чем AlexNet.  Со всем тем он использовал более чем в 1000 раз больше вычислений.

Успевает ли улучшение производительности чипа за развитием глубокого обучения?  совсем нет.  Из более чем 1000-кратного увеличения вычислений NASNet-A только 6-кратное улучшение происходит благодаря лучшему аппаратному обеспечению.  Остальное достигается за счет использования большего количества процессоров или длительной работы с более высокими затратами.

Практические данные гораздо больше, чем их расчеты

Теоретически, чтобы повысить производительность в фактор K, нам нужно на 4K больше данных.  Однако на практике для вычисления требуется коэффициент по меньшей мере 9K.  Это означает, что для уменьшения уровня ошибок вдвое требуется более чем в 500 раз больше вычислительных ресурсов.  Это довольно дорого, правда очень дорого.  Обучение модели распознавания изображений с частотой ошибок менее 5% обойдется в 100 миллиардов долларов.  Потребляемая им электроэнергия будет создавать выбросы углерода, эквивалентные месячным выбросам углерода в Нью-Йорке.  Если вы научите модель распознавания изображений с частотой ошибок менее 1%, стоимость будет еще выше.

глибоке навчання

К 2025 году уровень ошибок оптимальной системы распознавания изображений снизится до 5%.  Однако обучение такой системе глубокого обучения привело бы к выбросам углекислого газа в Нью-Йорке, эквивалентным количеству выбросов углекислого газа за месяц.

глибоке навчання

Бремя затрат на вычисление стало очевидным на переднем крае глубокого обучения.  OpenAI, аналитический центр машинного обучения, потратил более 4 миллионов долларов на разработку и обучение.  Компании тоже начинают избегать вычислительной стоимости глубокого обучения.  Большая сеть супермаркетов в Европе недавно отказалась от системы, основанной на глубоком обучении.  Система должна была предположить, какие продукты будут куплены.  Руководство компании пришло к выводу, что стоимость обучения и эксплуатации системы слишком высока.

What’s your Reaction?
Cool
2
Cool
Happy
2
Happy
Shaking
0
Shaking
Interesting
0
Interesting
Sad
0
Sad
Angry
0
Angry
Читайте Gizchina в Google News

Сподобалась стаття? Подякуй редакції!

Джерело
Поділитися з друзями

Мене завжди цікавили IT-технології. І оскільки моя попередня багаторічна професійна діяльність (а це дизайн і додрукарська підготовка) неможлива без їх допомоги, то так вийшло, що всім, що було пов'язано з комп'ютерами (наприклад, збиранням і модернізацією "заліза", а також налаштуванням софта) мені завжди доводилося займатися самому.

Ну, а з появою в нашому житті гаджетів, сфера моїх інтересів розширилася й на них теж.

Люблю вивчати та аналізувати можливості різних пристроїв, і вже багато років, перш ніж придбати що-небудь нове, завжди дуже довго і ретельно вивчаю можливості кожної з потенційних моделей, проводжу досить тривалу і копітку роботу, читаю огляди, відгуки та порівняння.

Нагородою за витрачений час зазвичай є те, що найчастіше я дійсно отримую найкраще з того, що можна взяти в рамках запланованого мною бюджету.

Оцініть автора
( Поки що оцінок немає )
GizChina.Com.Ua