Книга Миры, которые я вижу. Любопытство, исследования и открытия на заре ИИ - Fei-Fei Li
Шрифт:
Интервал:
Закладка:
Следующая презентация была посвящена более обширному, неординарному вопросу: что нас ждет, если мы двинемся в противоположном направлении и углубимся в ветви? Что сделают наши алгоритмы с более тонким и сложным миром, чем тот, для понимания которого они были созданы?
Джон встал рядом, чтобы ответить. Мягко воспитанный житель Огайо, который, казалось, чувствовал себя как дома в футболке и шортах-карго, он разделял спокойную манеру поведения Цзя, но выражал ее более причудливым образом; например, он быстро стал известен своим увлечением красными пандами и постоянно держал распечатку с изображением этого животного над монитором своего рабочего места. Но он не был назойливым и, как лучшие исследователи в моей лаборатории, твердо отстаивал свое мнение, когда чувствовал необходимость заявить о себе.
Щелчок - и на экране появилось разделенное изображение. На одной стороне была фотография автомобиля, а на другой - его эквивалент, созданный конструкторами с помощью компьютерного проектирования (CAD). Затем второе изображение накладывалось на первое, и цифровые красные линии обрисовывали контуры решетки радиатора, окон и кузовных панелей реального автомобиля, выделяя те особенности, которые классификатор должен был распознать, чтобы определить точную модель.
"Машины?" - спросил кто-то.
"О, просто подождите", - ответил Джон со знающей ухмылкой.
Он не шутил. Это был наш первый взгляд на тему, которая оказалась гораздо серьезнее, чем мы думали.
Я всегда считал, что истинный вклад ImageNet заключается в его двойственной природе. Его гигантский масштаб был мощным благодаря онтологической иерархии, которая его организовывала, а его онтология была мощной, потому что она была такой большой и всеобъемлющей, охватывая такой разнообразный спектр категорий. Ни одно из этих достоинств не было бы достаточным само по себе. Но, как и сам размер, такое понятие, как "категория", является относительным. Как показала техника хеджирования, обоснованные категориальные ответы могут быть найдены на разных уровнях глубины, в зависимости от задаваемого вопроса. Чем глубже уровень, тем ближе друг к другу сползают понятия, разделенные все меньшим количеством деталей. Вещь. Живая вещь. Растение. Дерево. Клен. Acer pseudoplatanus.
Однако ImageNet оказался не таким уж образцом обширности и детализации, каким казался. Хотя некоторые категории были исключительно тонкими - деревья особенно хороший пример, - другие оставались набором удобно различающихся идей, которые все еще были грубыми по своему охвату, отделенные друг от друга широкими пробелами концептуальной дифференциации. Они гарантируют, что во многих областях работа наших классификаторов никогда не будет слишком сложной.
Автомобили - один из многих примеров темы, которая практически стирает эти пробелы, и послеобеденный краш-курс, проведенный Джиа и Джоном, показал нам, насколько лабиринтной она может быть. Например, нам может показаться очевидным, что на фотографии изображена Toyota (хотя, конечно, большинство из нас были совершенно не готовы к разговору об автомобилях). То, что это Toyota Yaris, тоже можно было понять после небольшого изучения. Но была ли это Toyota Yaris 2008 года или Toyota Yaris 2009 года? Внезапно вопрос стал намного сложнее. Был ли это Toyota Yaris 2008 года в цвете "пылающий синий перламутр" или Toyota Yaris 2008 года в цвете "голубой перламутр"? В том году предлагались оба варианта, и оба были... синими. Это была базовая модель 2008 Toyota Yaris цвета "синий жемчуг" или спортивный лифтбек 2008 Toyota Yaris цвета "синий жемчуг"? Удивительно, но на этом вопросы не закончились. И все это для того, чтобы разобраться в одном варианте одной модели одного производителя. И это только автомобили.
Кто-то из аудитории обратил внимание на несколько недавних работ по компьютерному зрению, посвященных видам птиц, из которых ImageNet включает в себя, казалось бы, надежную коллекцию из пятидесяти девяти. Хотя проект Корнельского университета превзошел это число, представив набор фотографий, охватывающий сотни видов, по оценкам, в мире насчитывается более десяти тысяч видов, что оставляет даже самые современные достижения на порядки ниже реальности. Я усмехнулся, вспомнив, как задыхалась пресса о технологиях, когда статья за статьей возвещала о наступлении эры машинного обучения и объявляла классификацию изображений внезапно "решенной проблемой". Клены, журавли-кликуны и "Тойоты" мира говорят об обратном, подумал я.
Это были наши первые предметные уроки того, что стало известно как "мелкозернистая классификация" - исследовательская тема, изучающая все более узкие детали, необходимые для идентификации объектов все более схожих классов. Хотя это может показаться простым продолжением нашей предыдущей работы, от выделения очевидных различий до разбора менее очевидных, это наводило на мысль о чем-то более удивительном и поучительном: даже в самых грандиозных ситуациях мы все еще думали о малом.
Однако среди величайших достоинств науки - ее способность превратить урок смирения в момент возможности. Мы потратили годы на сбор изображений - миллиарды, - привлекая глобальную рабочую силу, чтобы помочь нам разобраться в них, но достаточно было пролистать Kelley Blue Book, чтобы понять, что мы едва поцарапали поверхность. Мы все еще были гораздо ближе к корню дерева, чем к его листьям. Годы усилий и глобальное соревнование между одними из самых ярких умов на земле - и все это ради маленького шага к настоящему визуальному интеллекту.
И все же, оглядев комнату, я не увидел на лицах своих студентов страха или отчаяния. Я видел, как в их глазах начинают вращаться шестеренки. Я не сомневался, что каждый из нас в отдельности думает об одном и том же: путешествие еще не закончено. Нам еще столько всего предстоит узнать.
Число Бидермана действительно было огромным, но оно также было необходимой фикцией - удобным усеченным определением "всего", которое было достаточно удобным для того, чтобы, хотя бы с трудом, обхватить наши умы и алгоритмы. Теперь мы стояли на пороге новых просторов. Нам предстояло узнать, что лежит за пределами всего.
Мое внимание привлекла богато украшенная деревянная подставка для специй. Я поднял ее, чтобы рассмотреть поближе. Заметив мой интерес, отец подошел ко мне.
"Оооо", - сказал он. "Это красиво, но..." Он присмотрелся. "Ах, да - похоже, это ручная работа, не так ли? Должно быть, здесь живет плотник". Он говорил немного тише, как будто не хотел, чтобы его мандаринский язык был подслушан.
Может быть, - сказал я себе, а затем посмотрел на другой стол. "Там есть что-нибудь интересное?" спросил я.
"Да, много. Мне понравились перчатки. И очень красивый набор инструментов. В гараже я заметил еще лучше, но не думаю, что они продаются. Знаете, я действительно думаю, что хозяин дома - какой-нибудь столяр".
Как это часто бывает в жизни,