Книга Архитекторы интеллекта. Вся правда об искусственном интеллекте от его создателей - Мартин Форд
Шрифт:
Интервал:
Закладка:
И. Б.: Да, метод обратного распространения стал краеугольным камнем успехов глубокого обучения. Он позволяет присваивать данным коэффициенты доверия (credit assignment), то есть рассчитывать, как для корректного поведения всей сети должны измениться внутренние нейроны. В контексте нейронных сетей об этом методе заговорили в начале 1980-х гг., когда я только начинал работать самостоятельно. Одновременно с Яном Лекуном метод развивали Джеффри Хинтон и Дэвид Румельхарт (David Rumelhart). Идея не новая, но примерно до 2006 г. особых успехов в обучении глубоких сетей не наблюдалось. Сейчас мы имеем механизм внимания, память и способность не только классифицировать, но и генерировать изображения.
М. Ф.: Существуют ли аналоги обратного распространения в человеческом мозге?
И. Б.: Хороший вопрос. Дело в том, что нейронные сети не пытаются скопировать мозг, хотя и появились как попытка смоделировать некоторые происходящие в нем процессы. Мы полностью не понимаем, как работает мозг. Нейробиологи пока не соединили результаты своих наблюдений в общую картину. Возможно, наша работа сможет дать доступную для проверки гипотезу. Ведь метод обратного распространения до сих пор считался уделом компьютеров, но не человеческого мозга. Прекрасные результаты, которые он дает, заставляют подозревать, что, возможно, мозг умеет проделывать похожие штуки. Я участвую в исследованиях, которые могут дать ответ на этот вопрос.
М. Ф.: В период «зимы ИИ», когда общий интерес к нему угас, вы вместе с Джеффри Хинтоном и Яном Лекуном продолжали свои исследования. Как вам удалось добиться таких успехов, как сейчас?
И. Б.: К концу 1990-х гг. нейронные сети вышли из моды, и ими практически никто не занимался. Но моя интуиция говорила, что мы упускаем что-то важное. Ведь благодаря композиционной структуре они могли представить богатую информацию о данных, базируясь на множестве «строительных блоков» – нейронов и их слоев. Лично меня это привело к лингвистическим моделям, то есть к нейронным сетям, которые моделировали текст, используя векторные представления слов. Каждое слово в них связано с набором чисел, соответствующих различным атрибутам, которые изучаются машиной автономно. Тогда этот подход не получил широкого распространения, но в настоящее время эти идеи используются почти во всем, что связано с моделированием языка на основе данных.
Обучать глубокие сети мы не умели, но проблему решил Джеффри Хинтон своей работой по быстрым алгоритмам обучения ограниченной машины Больцмана (restricted Boltzmann machine, RBM). В моей лаборатории велась работа над связанными с ней автокодировщиками, которые дали начало таким моделям, как генеративно-состязательные сети (generative adversarial networks). Благодаря им появилась возможность обучения более глубоких сетей.
М. Ф.: А что такое автокодировщик?
И. Б.: Это специальная архитектура, состоящая из двух частей: кодировщика и декодера. То, что кодировщик сжал – декодер восстанавливал, причем так, чтобы выход был максимально близок к оригиналу. Автокодировщики превращали входную необработанную информацию в более абстрактное представление, в котором проще было выделить семантический аспект. Затем декодер восстанавливал по этой высокоуровневой абстракции исходные данные. Это были первые работы по глубокому обучению.
Через несколько лет мы обнаружили, что для обучения глубоких сетей достаточно изменения нелинейности. Вместе с одним из моих студентов, который работал с нейробиологами, мы решили попробовать блоки линейной ректификации (rectified linear unit, ReLU). Это пример копирования работы человеческого мозга.
М. Ф.: И к каким результатам это привело?
И. Б.: Раньше для активации нейронных сетей использовали сигмоиду, но оказалось, что с функцией ReLU гораздо проще обучать глубокие сети с большим количеством уровней. Переход случился примерно в 2010 г. Появилась огромная база данных ImageNet, предназначенная для отработки и тестирования методов распознавания объектов на изображениях и машинного зрения. Чтобы заставить людей поверить в методы глубокого обучения, нужно было показать хорошие результаты на примере этой базы. Это смогла сделать группа Джеффри Хинтона, которая использовала в качестве основы работы Яна Лекуна, посвященные сверточным сетям. В 2012 г. эти новые архитектуры позволили значительно улучшить существующие методы. За пару лет на эти сети переключились все, кто занимался компьютерным зрением.
М. Ф.: То есть именно в этот момент началось настоящее глубокое обучение?
И. Б.: Нет, совокупность факторов, ускоривших глубокое обучение, целиком сложилась только к 2014 г.
М. Ф.: То есть к моменту, когда этим занялись не только университеты, но и такие компании, как Google, Facebook и Baidu?
И. Б.: Именно так. Процесс ускорения начался чуть раньше, примерно в 2010 г., благодаря таким компаниям, как Google, IBM и Microsoft, которые работали над нейронными сетями для распознавания речи. Эти нейронные сети к 2012 г. Google начала использовать на смартфонах Android. Тот факт, что одну и ту же технологию глубокого обучения смогли применить как для компьютерного зрения, так и для распознавания речи, оказался по-настоящему революционным. Это привлекло внимание к сфере ИИ.
М. Ф.: Удивляет ли вас тот факт, что нейронные сети, с которыми вы много лет назад начали работать, стали центральным элементом проектов в таких крупных компаниях, как Google и Facebook?
И. Б.: Конечно, изначально этого никто не ожидал. В области глубокого обучения был сделан ряд важных, удивительных открытий. Я уже упоминал, что распознавание речи появилось в 2010 г., а о компьютерном зрении стали говорить в 2012 г. Пару лет спустя начался прорыв в сфере машинного перевода, который в 2016 г. привел к появлению сервиса Google Translate. В этом же году началось активное развитие программы AlphaGo. Всего этого мы не ожидали. Помню, как в 2014 г. я просматривал результаты генерации подписей к изображениям и поражался тому, что компьютер смог это сделать. Если бы годом раньше меня спросили, реально ли подобное, я бы ответил «нет».
М. Ф.: Это действительно нечто потрясающее. Конечно, осечки иногда происходят, но в большинстве случаев мы имеем поразительно точный результат.
И. Б.: Осечки неизбежны! Системы пока не обучены на достаточном количестве данных, кроме того, требуется изрядно продвинуться в фундаментальных исследованиях, чтобы они действительно научились распознавать объекты на изображениях и понимать язык. Пока до этого далеко, но ведь даже современного уровня производительности мы изначально не ожидали.
М. Ф.: А как вы пришли к исследованиям в области ИИ?
И. Б.: В юности я активно читал научную фантастику. Подозреваю, что это могло на меня повлиять. Именно оттуда я узнал об ИИ и трех законах робототехники Азимова, и у меня появилось желание изучать физику и математику. А чуть позже мы с братом заинтересовались компьютерами. На сэкономленные деньги мы приобрели компьютер Apple IIe, а затем Atari 800. Программного обеспечения тогда было мало, поэтому мы научились писать программы на языке BASIC.