Книга Миры, которые я вижу. Любопытство, исследования и открытия на заре ИИ - Fei-Fei Li
Шрифт:
Интервал:
Закладка:
Работа Кристианы в области лингвистики имела лишь самое слабое отношение к моей, но то, что нас объединяло, имело решающее значение: сильное влияние когнитивных наук и особый интерес к пониманию - даже к составлению карты - того, как разум концептуализирует свой мир. Понятие, которое так захватило меня во время изучения человеческого зрения, - то, как мы классифицируем содержимое нашего восприятия, - было неотъемлемой частью ее работы, и в чем-то очень похожей на мою. Мы оба считаем, что категории - это точка пересечения между зрением (вещами, которые мы видим) и языком (тем, как мы их описываем). Через двадцать минут разговора меня осенило, что я даже не знаю, предполагалось ли, что мы будем обсуждать предложение о работе. В любом случае это было последнее, о чем я думал, поскольку она собиралась задать вопрос, который навсегда изменит мою карьеру и жизнь.
"Вы слышали о проекте под названием WordNet?"
WordNet, как мне предстояло узнать, был детищем Джорджа Армитажа Миллера, легенды психологии и когнитивной науки. Он родился в 1920 году и был одним из самых влиятельных представителей поколения психологов, которые смотрели на поведение человека сквозь пальцы, пытаясь создать модели ментальных процессов, которые им управляют. Естественно, его внимание привлекла структура языка и роль, которую он играет в мышлении. С помощью WordNet он попытался составить карту языка в поразительных масштабах.
Два вопроса, одинаково амбициозные, вдохновили проект: что, если бы все понятия, которые человек может сформулировать с помощью языка, были организованы в единую, массивную базу данных слов? И что, если бы, в отличие от алфавитной организации словаря, эти слова были связаны друг с другом на основе их значений? Например, вместо того чтобы объединять "яблоко" с "прибором" из-за случайности их написания, "яблоко" можно было бы объединить с целым кластером родственных слов - "еда", "фрукт", "дерево" и так далее. Это было бы похоже на карту всего, что ценят люди, - всего, что мы научились описывать словом, - расположенного в едином пространстве. В двух словах, это и есть WordNet.
С момента своего создания в 1985 году проект разросся до почти непостижимых размеров, включив в себя более 140 000 английских слов и быстро распространяясь на новые языки. Для Кристиана, занимавшего пост президента ассоциации Global WordNet , это была почти постоянная работа. Я был потрясен ее масштабами, ее долговечностью и координацией, которая, должно быть, требовалась, чтобы так точно и на протяжении многих лет направлять ее рост. Я практически краснел, вспоминая, каких усилий стоило уговорить горстку студентов на несколько месяцев, чтобы собрать достаточно снимков для набора данных Caltech 101 - его собственная категориальная глубина более чем в тысячу раз меньше. Но я также был вдохновлен до такой степени, какой не испытывал уже давно.
WordNet стал для меня откровением. Она давала ответ или хотя бы намек на вопросы, которые занимали большую часть моей жизни в течение почти четырех лет с тех пор, как я наткнулся на номер Бидермана. Это была карта человеческих смыслов, бескомпромиссная как по охвату, так и по достоверности содержания. Я еще не знал, как с помощью компьютерного зрения можно достичь масштабов, которые представлял себе Бидерман, но теперь, по крайней мере, у меня было доказательство того, что такая работа вполне осуществима. Впервые передо мной открылся путь, и я мог видеть следующий шаг.
Затем, как будто для того, чтобы еще больше убедить меня в этом, Кристиана упомянула о смежном проекте, целью которого было проиллюстрировать каждое понятие WordNet одним визуальным примером, например фотографией или диаграммой. Хотя эта инициатива была заброшена, я был заинтригован. Даже его название - ImageNet - было почти идеально подходящим. Еще один толчок, и не особенно тонкий.
Точки начали соединяться еще до того, как я покинул кампус в тот день. Сначала была WordNet: лексическая база данных почти неописуемой амбициозности, которая, казалось, охватывала все мировые понятия, организованные в естественную иерархию человеческого смысла. Затем появился ImageNet: попытка присвоить каждому понятию отдельную картинку. Оба проекта казались ответами на зияющее, загадочное пространство, которое число Бидермана создало в моих мыслях.
Я задал себе вопрос, столь же абсурдный, сколь и очевидный: что если создать набор данных, подобный Caltech 101, в масштабах WordNet? Не обращая внимания на невозможную логистику такой затеи - и действительно, "невозможно" было единственным словом, пришедшим на ум, - нельзя было отрицать силу этой идеи. И дело было не только в размерах: хотя набор данных был бы астрономически огромным, конечно, его цифры были бы побочным эффектом чего-то более глубокого: разнообразия в невиданных ранее масштабах, такого же беспорядочного и непредсказуемого, как и мир, который он отражал.
После многих лет, которые я провел, погружаясь в эту область, и десятилетий истории, которую я изучал с Пьетро и Кристофом, это казалось чем-то действительно новым. Дивергентным, даже разрушительным. Следующий шаг в поисках тайны, которая преследовала меня днем и не давала спать по ночам. Если существовал хотя бы номинальный шанс, что это приблизит меня к открытию - любому открытию, - я должен был рассмотреть его.
Мои мысли неслись вскачь, когда я представлял себе богатство визуальных сигналов, которые мог бы усвоить алгоритм, обученный на таком наборе данных. Твердые края пластика, блеск лакированного дерева, текстура шерсти животного, отражение на поверхности глаза и многое другое - возможно, все остальное. Я представлял себе, как наши алгоритмы становятся все более гибкими в своей способности отделять передний план от заднего, определять, где заканчивается один объект и начинается другой, и отделять свет и тень от поверхности и объема.
Что, если секрет распознавания чего бы то ни было заключается в обучающем наборе, включающем в себя все?
Едва прошел год после того, как я стал доцентом в Урбана-Шампейн, Принстон предложил мне работу. Это был самый большой перерыв в моей карьере, и я согласился. Сабеллы были так рады моему возвращению в Нью-Джерси, что пришли помочь распаковать вещи: Мистер Сабелла, Джин и их второй сын Марк, теперь уже сам выпускник колледжа, - все они ждали у входа в жилой комплекс для преподавателей Принстона в день моего приезда. Это было неожиданно красивое место на озере Карнеги с тремя спальнями, которые казались просто роскошными после общежитий, в которых мы с родителями жили с момента приезда в Америку. Это был такой скачок в площади, что вскоре мы поняли, что команда из трех человек для переезда - это перебор. Поскольку Сильвио все