Книга Наука о данных - Брендан Тирни
Шрифт:
Интервал:
Закладка:
Использование науки о данных государственными структурами
В последние годы государственные структуры осознали преимущества науки о данных. Например, правительство США в 2015 г. назначило математика Дханурджая Патила первым главным специалистом по данным. Некоторые из крупнейших инициатив в области науки о данных, возглавляемых правительством, были связаны со здоровьем. Наука о данных лежит в основе проектов «Раковый прорыв» (Cancer Moonshot) и «Точная медицина» (Precision Medicine)[4]. «Точная медицина» сочетает секвенирование генома человека и науку о данных при разработке индивидуальных лекарств для отдельных пациентов. Одной из его частей является программа «Все мы» (All of Us)[5], которая занимается сбором информации об окружающей среде, образе жизни и биологических параметрах более миллиона добровольцев для создания крупнейших в мире баз данных точной медицины. Наука о данных радикальным образом меняет устройство городов, где она применяется для отслеживания, анализа и контроля экологических, энергетических и транспортных систем, а также при долгосрочном городском планировании{9}. Мы вернемся к здоровью и умным городам в главе 9, когда будем обсуждать перспективы науки о данных на ближайшие десятилетия.
Еще одна инициатива правительства США в области данных направлена на то, чтобы департаменты полиции лучше понимали, как они могут помочь местным сообществам[6]. Наука о данных также способствует прогнозированию очагов преступности и рецидивов преступлений, однако правозащитные группы подвергли критике ее использование в уголовном правосудии. В главе 7 мы обсудим вопросы конфиденциальности и этики, поднятые наукой о данных, и одним из факторов в этой дискуссии станет то, что многие люди имеют разное мнение о приватности информации, в зависимости от области, где она применяется. Если ее использование в медицинских исследованиях, финансируемых государством, находит поддержку, то реакция тех же людей меняется на противоположную, когда речь заходит о деятельности полиции и уголовном правосудии. В главе 7 мы также обсудим использование персональных данных для определения размера выплат при страховании жизни, здоровья, автомобиля, дома и путешествий.
Наука о данных в профессиональном спорте
Фильм 2011 г. «Человек, который изменил все» с участием Брэда Питта продемонстрировал растущую роль науки о данных в современном спорте. Фильм основан на книге «Moneyball»[7] 2004 г., в которой рассказана реальная история о том, как бейсбольный клуб «Окленд Атлетикс» использовал науку о данных для улучшения отбора игроков{10}. С ее помощью было выявлено, что процентное соотношение попадания игрока на базу и упущенных возможностей является более информативным показателем его успешности, чем традиционно принятые в бейсболе статистические данные, такие как средний уровень достижений. Это понимание позволило составить список недооцененных игроков и превзойти возможности бюджета. Успех «Окленд Атлетикс» произвел революцию в бейсболе, и сегодня большинство клубов интегрирует аналогичные стратегии, основанные на данных, в процесс найма.
Эта история — яркий пример того, как наука о данных может дать организации преимущество в конкурентном рыночном пространстве. Но с точки зрения самой науки наиболее важным аспектом здесь является то, что иногда на первый план выходит выявление информативных атрибутов. Распространено мнение, что ценность науки о данных заключается в моделях, которые создаются в процессе. Однако, как только мы узнаем важные атрибуты области определения, можно легко создавать модели, управляемые данными. Ключом к успеху является получение правильных данных и поиск правильных атрибутов. В своей книге «Фрикономика»[8] Стивен Левитт и Стивен Дабнер иллюстрируют важность этого на примере широкого круга проблем, поскольку считают, что ключом к пониманию современной жизни является «знание того, что и как измерять»{11}. Используя науку о данных, мы можем выявить важные закономерности, которые, в свою очередь, помогут идентифицировать нужные атрибуты области определения. Причина, по которой наука о данных используется все шире, заключается в том, что сфера ее приложения не имеет значения: важны только правильные данные и четкая формулировка проблемы.
Есть ряд факторов, способствующих росту науки о данных. Как мы уже говорили, появление больших данных обусловлено относительной легкостью, с которой организации могут собирать информацию. Записи транзакций в точках продаж, клики на онлайн-платформах, публикации в социальных сетях, приложения на смартфонах и прочее — все это каналы, через которые компании теперь могут создавать ценные профили отдельных клиентов. Другим фактором является коммодификация хранилищ данных с экономией на масштабе, что делает хранение информации дешевле, чем когда-либо прежде. На это влияет и колоссальный рост мощности компьютеров. Графические карты и процессоры (GPU) были изначально разработаны для быстрой визуализации графики в компьютерных играх. Отличительная особенность графических процессоров — способность выполнять быстрое умножение матриц, а это полезно не только для рендеринга графики, но и для машинного обучения. В последние годы графические процессоры были адаптированы и оптимизированы для использования в машинном обучении, что способствовало заметному ускорению обработки данных и обучения моделей. Также стали доступны удобные инструменты для обработки данных, которые снизили барьеры для доступа к ним. В совокупности это означает, что сбор, хранение и обработка данных никогда еще не были такими простыми.
За последние 10 лет появились более мощные модели машинного обучения, известные как глубокое обучение, которые произвели революцию в компьютерной обработке данных языка и изображений. Термин «глубокое обучение» описывает семейство моделей многослойных нейронных сетей. Нейронные сети существуют с 1940-х гг., но лучше всего они проявили себя с большими сложными наборами данных и мощными вычислительными ресурсами для обучения. Таким образом, появление глубокого обучения в последние несколько лет связано с ростом больших данных и вычислительной мощности. Тем не менее не будет преувеличением сказать, что влияние глубокого обучения на целый ряд областей исключительно. История AlphaGo[9] от DeepMind является отличным примером того, как глубокое обучение произвело революцию в области исследований. Го — настольная игра, созданная в Китае 3000 лет назад. Играть в го проще, чем в шахматы: игроки по очереди размещают фигуры на доске с целью захвата фигур противника или окружения пустой территории. Однако простота правил и тот факт, что в гo используется доска с бо́льшим числом клеточек, означают и большее число возможных конфигураций, нежели в шахматах. Число возможных конфигураций в го больше, чем число атомов во Вселенной, и это делает го гораздо более сложной игрой для компьютера, чем шахматы, в силу огромного пространства для поиска и сложности в оценке всех возможных конфигураций. Команда DeepMind использовала модели глубокого обучения, чтобы AlphaGo смогла оценивать конфигурации на доске и выбирать следующий ход. В результате AlphaGo стала первой компьютерной программой, которая победила профессионального игрока, а в марте 2016 г. она одержала победу над 18-кратным чемпионом мира по го Ли Седолем в матче, который посмотрели более 200 млн человек во всем мире. Еще совсем недавно, в 2009 г., лучшая компьютерная программа для игры в го оценивалась как соответствующая любительскому уровню, а уже спустя семь лет AlphaGo обыграла чемпиона мира. В 2016 г. в самом престижном академическом журнале Nature была опубликована статья, описывающая алгоритмы глубокого обучения, заложенные в AlphaGo{12}.