Книга Миры, которые я вижу. Любопытство, исследования и открытия на заре ИИ - Fei-Fei Li
Шрифт:
Интервал:
Закладка:
Боже мой, какой же он зануда, подумал я. Но он такой же зануда, как и я.
Я учился в двух лабораториях - электротехники у Пьетро и вычислительной нейронауки у Кристофа. Я встречался с каждым из них раз в неделю, посещал журнальные клубы с обзором новейшей литературы по нейронаукам и информатике и, поскольку обе лаборатории предоставляли бесплатную еду, питался лучше, чем мог бы ожидать. Потом был Сильвио. Когда позволяло время - а с учетом наших графиков это случалось нечасто, особенно по меркам головокружительных новых отношений, - мы были друг у друга.
Но по мере того как проходили годы моей работы в Калтехе, во мне укоренялось нечто иное. Я размышлял обо всем, что мы сделали: о нашем эксперименте по психофизике, об исследовании алгоритмов одномоментного обучения, о нашей работе, демонстрирующей мощь набора данных Caltech 101, и о десятилетиях литературы, над которой мы корпели. Несмотря на нестандартный путь моего образования, раздвоенный под руководством двух консультантов, я начинал ценить элегантность нашей работы. То, что мы сделали все это, не было случайностью; я как никогда был убежден, что категоризация - это идея, связывающая их, и что ее роль в понимании зрения - а может быть, и всего человеческого интеллекта - скоро окажется первостепенной.
Так почему же прогресс был таким медленным?
Одним словом, наши алгоритмы "перестраивались", как это называется в науке о данных. Иными словами, независимо от того, насколько продуманным был дизайн - а мы исследовали все возможные варианты, - даже те, которые показали наилучшие результаты во время тестирования, быстро давали сбой при воздействии новых стимулов. Снова и снова алгоритмы, которые, казалось бы, прошли эффективное обучение, оказывались неспособны применить полученные знания - или предполагалось, что они их получили - в реальном мире. По сути, это было противоположно человеческому восприятию, которое определяется способностью к обобщению. Обобщение делает нас гибкими, адаптируемыми и даже творческими, готовыми использовать силу новых идей, а не томиться в рамках прошлого опыта. Любое существо, лишенное такой способности, было бы быстро ошеломлено непредсказуемостью мира природы, что делает ее ключевой характеристикой биологически развитого разума. Но для машин она оставалась недоступной.
В наших попытках разгадать загадку избыточной подгонки естественным местом для начала был сам алгоритм - в частности, способы, с помощью которых он обучался на обучающих данных. Большинство алгоритмов, которые мы исследовали, были настолько сложны, настолько "вычислительно неразрешимы", что их нельзя было настроить вручную. Диапазон перестановок для их бесчисленных параметров был просто слишком велик, как панель управления с ручками и переключателями, простирающаяся за горизонт. Вместо этого автоматизированные технологии позволяли приблизиться к идеальному балансу этих параметров путем долгой итеративной последовательности проб и ошибок. В течение многих лет совершенствование таких методов было основой исследований в области компьютерного зрения.
Но Caltech 101 побудил нас глубже задуматься и о данных, что, в свою очередь, заставило нас задуматься о том, как эта сторона уравнения может способствовать чрезмерной подгонке. В конце концов, без данных к чему относится "обучение" в термине "машинное обучение"? Несмотря на очевидную важность этой темы, ей не хватало точности, которую мы привыкли ожидать от физики, математики или статистики. Такие исследователи, как Пьетро и Джитендра, были одними из немногих, кто изучал эту тему хотя бы номинально глубоко, и они разработали, как мне кажется, лучшие интуиции для ее понимания. Наши публикации свидетельствовали о том, что по мере увеличения массивов данных росли возможности наших алгоритмов - во всяком случае, относительно. Тем не менее, работа с данными больше походила на черное искусство, чем на науку.
Я начал думать, что мы делаем не так. Может быть, учебные изображения должны быть ориентированы по-другому? Нужно ли нам больше разнообразия? Может быть, дело в разрешении или качестве камеры? А может быть, - и я почти не решался допустить такую мысль, не говоря уже о том, чтобы высказать ее вслух, - может быть, даже 101 категории недостаточно? Чем больше я размышлял над этими вопросами, тем более очевидными, даже насущными, они казались. Но, насколько я мог судить, никто другой в нашем сообществе их не задавал.
Даже вопрос о количестве - наша специальность - казался загадочным. Я вынужден был признать, что было разумно задаться вопросом, что делает число 101 таким особенным. Это не был эмпирически подтвержденный результат или даже принципиальная оценка, выведенная из теории. Это был результат игры в салочки с моим консультантом над обеденными подносами, расставленными как картины Хокни. Неужели так удивительно, что это не было прелюдией к прорыву? Я снова вернулась к литературе, на этот раз с остервенением. Если не 101, то что? 200? 500? 1,000? Пожалуйста, только не 1000, подумал я. Я был полон решимости найти разгадку, где-нибудь, как-нибудь.
Пришлось немного покопаться, но в конце концов я кое-что нашел. И даже из знакомого источника - статьи Ирвинга Бидермана, одного из главных авторов нашего современного понимания зрения, опубликованной в 1983 году. Прошли годы с тех пор, как я читал ее, несомненно, пролистав вместе со стопкой другой литературы в два часа ночи. Теперь, после всего, что мы узнали из наших приключений с одномоментным обучением и мечтой о достижении истинной визуальной категоризации, я увидел ее по-новому.
В статье рассматривается интересная, но не имеющая прямого отношения к делу тема: как мы используем наши знания о базовых геометрических формах для распознавания сложных объектов. В процессе построения своего заключения Бидерман попытался ответить на обманчиво простой вопрос: сколько примерно уникальных категорий "вещей" существует в мире? То есть если сложить их все - "кресло-качалку", "пингвина", "спортивный автомобиль", "лабрадора", "гору" и все остальное, - то каково будет общее число?
Это больше похоже на загадку, чем на научную задачу. Но я был впечатлен изобретательностью подхода Бидермана, который он основывает на анализе английского языка. Слова играют основополагающую роль в том, чтобы помочь нам классифицировать то, что мы видим, и он решил, что для начала неплохо было бы подсчитать количество слов, которые мы посвящаем отдельным, поддающимся количественной оценке вещам - известным как "счетные существительные". Затем он представил себе, сколько существует по-настоящему разных вариантов каждого такого существительного, подобно тому, как одна категория предметов, например "чашка", может включать в себя белый чайный сервиз с витиеватыми ручками, ярко раскрашенную кофейную кружку и прозрачный стакан без черт. Поскольку некоторые категории отличаются большим разнообразием, чем другие, он упростил ситуацию, приняв разумное среднее значение. После