Книга Миры, которые я вижу. Любопытство, исследования и открытия на заре ИИ - Fei-Fei Li
Шрифт:
Интервал:
Закладка:
Самолет признан.
Это был волнующий момент, но не потому, что он сработал, а потому, как он сработал. Вместо того чтобы погрузить машину в сотни фотографий самолетов, охватывающих как можно больше вариаций цвета, стиля, перспективы и условий освещения, мы показали ей всего одну. Однако мы показывали ей сотни изображений совершенно несвязанных предметов - пятнистых кошек из джунглей, мотоциклов, человеческих лиц, сделанных нашими улыбчивыми товарищами по лаборатории и новой цифровой камерой Пьетро, а также случайные подборки, которые мы загрузили из Google Images. Наша гипотеза заключалась в том, что, ознакомив алгоритм сначала с широким спектром визуального мира, он будет лучше подготовлен к обучению чему-то конкретному. Поэтому, хотя алгоритм был обучен на самых разных вещах, самолет, который он только что распознал, был лишь вторым, который он видел. Эвер.
Наше творение было лишь пробным вариантом, и в нем не обошлось без ошибок. Но наша цель состояла в том, чтобы продемонстрировать, что алгоритмы, как и люди, получают огромную пользу от того, что видят больше визуального мира. Теперь на моем горизонте замаячила Северная звезда, и мы сделали реальный шаг в ее направлении.
Мы назвали эту технику "одномоментным обучением". Это был значительный отход от существующего положения дел в области распознавания изображений, но способность, которая нас вдохновила, хорошо известна. Как люди, мы от природы умеем распознавать вещи даже после одного взгляда на них: новый вид музыкального инструмента, животное, которого мы никогда раньше не видели, лицо недавно избранного политика. Можно привести множество объяснений этой способности, но одним из самых простых и действенных является тот факт, что даже когда мы видим что-то новое, мы используем для этого опыт всей нашей жизни. Независимо от новизны, практически все, что мы видим, настолько сильно опирается на прошлый опыт - знакомые детали, такие как контуры, свет и тень, текстуры и узоры, - что трудно представить, что можно увидеть что-то в полном одиночестве.
Наша техника воплотила эту концепцию в машинах, и оказалось, что она работает. Однако если результаты оказались приятным сюрпризом, то прием, который получила наша статья, был ошеломляющим. Это был своего рода прорывной успех: ее не только приняли на Международную конференцию по компьютерному зрению (ICCV) в Ницце, Франция, но и дали нам одно из немногих мест для устного доклада. Хотя доклад был написан в соавторстве с Пьетро и его коллегой по имени Роб Фергус, я был ведущим. Это означало, что честь и ответственность за поездку лежала на мне.
Выступление на ICCV - редкая возможность, особенно для аспиранта, и отсутствие опыта выступлений перед столь важной аудиторией тяготило меня. Что еще хуже, Пьетро не смог бы поехать со мной. Он и его жена ожидали рождения своего первенца, и дата родов приближалась. Это была моя первая научная конференция и первое выступление на сцене. И я буду выступать один.
Нервы могли бы стать проблемой во время полета в Ниццу, если бы не стоявшая передо мной задача. Мои обязанности в Калтехе держали меня в состоянии безостановочной суеты, и тринадцать спокойных часов на высоте тридцать тысяч футов оказались единственным свободным окном для подготовки доклада, который мне предстояло сделать. Большую часть поездки я не высовывался, составляя конспект и собирая слайды так быстро, как только мог.
Однако по прибытии я остро почувствовал отсутствие Пьетро. Обычно консультанты посещают первую конференцию студента вместе с ним, независимо от того, выступает он с докладом или нет, в знак поддержки и для того, чтобы помочь наладить контакты. До меня начало доходить, что я была предоставлена сама себе в зале, полном сотен незнакомых людей. Если я и собиралась нервничать, то сейчас самое время.
"Фей-Фей?" - раздался голос позади меня. Повернувшись, я увидел незнакомое лицо, смотревшее на меня сверху вниз.
"... Да?" осторожно ответила я.
"Прекрасно, что мы наконец-то встретились! Я Джитендра".
"Джитен... О! Джитендра... Малик? Ты..."
"Полагаю, вы знаете меня как бывшего советника Пьетро, да, - сказал он со смехом. "Он попросил меня составить вам компанию. Вы же не думали, что мы позволим вам сделать это в одиночку, не так ли?"
Хотя я знал имя Джитендры и, конечно, его репутацию, мы впервые встретились лицом к лицу. Я склонен рассматривать академические отношения в семейных терминах, поэтому я считал его - советника моего советника - своим "академическим дедушкой". Он вполне соответствовал этому названию, его присутствие было одновременно успокаивающим и ободряющим. После моего доклада, когда на меня набросилась толпа исследователей, жаждущих узнать больше, он стал для меня спасением. Простое присутствие его рядом со мной превратило подавляющий день в нечто управляемое и положило начало тому, что переросло в прочную связь.
Несмотря на шквал разговоров после моего выступления, мне пришло в голову нечто неуловимое: каждый вопрос, который мне задавали, касался самого алгоритма. Как вы составили байесовские уравнения для оценки апостериорной вероятности? Как вы оценили предварительное распределение изображений? Вы упомянули об использовании недавно предложенного алгоритма вариативного вывода для оптимизации параметров модели - можете ли вы рассказать об этом подробнее? Какие у вас планы по его расширению в будущих модификациях? Как он может работать в других условиях?
Нас снова и снова спрашивали о математическом ядре выбранного нами алгоритма машинного обучения - вероятностной технике, называемой "байесовской сетью", - но ни разу не спросили о данных, на которых мы его обучали. И хотя в этом не было ничего необычного - данные не так уж и незаметно были отброшены как инертный товар, имеющий значение лишь в той степени, в какой это требуется алгоритмам, - я начал понимать, что мы недооценили нечто важное.
Определяющая особенность нашего алгоритма - его способность узнавать новые категории объектов всего за одну экспозицию - в значительной степени зависела от данных. В конечном счете, именно разнообразие других объектов, которые видел наш алгоритм, дало ему своего рода перцептивный опыт и позволило так хорошо работать, когда ему было представлено что-то новое.
На самом деле, чем больше я думал об этом, тем больше удивлялся, почему эта тема - тонкая, но интригующая сила данных - не привлекает никакого внимания. В конце концов, мы добились довольно удивительных результатов при абсолютном отсутствии данных - несколько сотен изображений, распределенных по нескольким случайно выбранным категориям. В связи с этим возник вопрос, который казался все более провокационным каждый раз, когда я возвращался к нему: если так мало данных позволило создать столь мощные возможности, то что может дать больше данных?
Как