Книга О чем говорят цифры. Как понимать и использовать данные - Ким Хо
Шрифт:
Интервал:
Закладка:
Конечно, креативность и тяжелый труд ассоциируются не только с миром количественного анализа. Например, они точно так же присутствуют в мире искусства и литературы. Известный корейский автор Те Дзюн Ра тоже считает, что вдохновение не вспыхивает внезапно на пустом месте, а требует долгой и трудной подготовительной работы, погружения в тему.
Вы концентрируетесь и погружаетесь в одну тему, продолжая накапливать разнообразные идеи, а затем в один прекрасный момент вас озаряет вспышка, неожиданный полет вдохновения и вдруг становится понятно, что же вы так отчаянно искали все это время. Говорят, что вдохновение приходит внезапно. Это правда, если говорить о самом моменте озарения. Но до этого может потребоваться долгий и кропотливый труд. В конечном счете можно сказать, что глубина погружения в предмет и объем проделанной кропотливой работы предопределяют приход вдохновения[73].
Чаще всего интуицию определяют как непосредственное восприятие истины без всякого объяснения или логического обоснования. Однако мы верим в то, что интуиция – это качество, которое можно развить в себе путем постоянного анализа, как количественного, так и качественного. Нейробиологи считают, что нейроны можно «обучать» путем постоянного повторения анализа. Мы считаем, что точно так же способность к интуитивному восприятию развивается, если человек на основе накапливаемого со временем опыта пытается выявить взаимосвязи между переменными, не собирая и не анализируя для этого данные. Немецкий философ Георг Гегель считал, что только тот, кто способен мыслить глубоко аналитически, обладает чистой истинной интуицией[74].
Суть креативного анализа данных состоит в выявлении модели отношений между переменными. Модель – это устойчивая неочевидная взаимосвязь переменных. На этом этапе математическое мышление весьма полезно, поскольку математика сама по себе является наукой о моделях: эвклидова геометрия, первая великая наука Древней Греции, развилась из наблюдения за геометрическими фигурами в окружающей природе. Теорема Пифагора – это не что иное, как модель зависимости между тремя сторонами прямоугольного треугольника.
Поиск моделей в современных организациях осуществляется главным образом путем статистического, а не чисто математического анализа. Некоторые статистические инструменты помогают выявить наличие в данных модели – связи, встречающейся чаще, чем можно было бы ожидать, если бы распределение было случайным. Анализ дает основания полагать, например, что потребители с определенной моделью покупательского поведения (или ее отсутствием) в тот или иной момент могут вообще прекратить покупки. Или что покупатели, приобретающие определенную книгу, часто покупают и другие: например, на сайте Amazon.com имеется встроенная функция рекомендаций. (Друг Тома Дэвенпорта получил от Amazon.com рекомендацию купить вместе с книгой Тома шуточный сувенир в виде собачьих экскрементов – по мнению сайта, именно такое сочетание предпочитают другие покупатели!) В табл. 5.1 представлены различные виды моделей, а также бесплатное и коммерческое программное обеспечение для их построения.
Таблица 5.1
Программное обеспечение для интеллектуального поиска данных для построения моделей на основе баз данных
Более подробно механизм выявления моделей на основе анализа массива данных можно проиллюстрировать на хорошо известном примере из области интеллектуального поиска данных: мужчины, заходящие в продовольственные магазины только по выходным, склонны вместе с пивом покупать пеленки. Это открытие было сделано отнюдь не в Древней Греции, а в Чикаго в 1992 году. Его определенно можно считать примером выявления модели поведения; другое дело, что вряд ли это удачный пример аналитического мышления (правда, мы считаем, что изучение и положительных, и отрицательных примеров в равной степени поучительно)[75].
Определение и формулирование проблемы. Том Блисчок, на тот момент менеджер группы консультантов по розничной торговле в компании Teradata, создающей аппаратно-программные комплексы для обработки и анализа данных, вместе с командой проводил анализ розничной торговой точки (point-of-sale – POS) для своего клиента, компании Osco Drug. По словам одного из членов этой группы, Джона Эрла, целью их работы был поиск закономерности в том, какие продукты чаще всего приобретаются вместе: «Мы предложили несколько экспериментов по размещению товара в торговом зале, чтобы посмотреть, как это будет влиять на склонность потребителей приобретать определенные товары вместе»[76]. Эрл предполагает, что истинной целью анализа было не столько решить какую-то конкретную проблему или обосновать управленческое решение для клиента, сколько продемонстрировать ему преимущества технологий, применяемых Teradata.
Обзор предшествующих исследований Подобные исследования ранее практически не проводились. Единственное, что было известно, это то, что товары для малышей высокорентабельны, поэтому было бы хорошо найти товары, вместе с которыми они бы чаще продавались и, соответственно, рос бы их объем продаж.
Моделирование (отбор переменных). Частота покупок различных видов товара по данным кассовых аппаратов аптек.
Сбор данных. Osco Drug располагала данными с кассовых аппаратов в своих аптеках (розничных торговых точках) и предоставила их аналитикам. База данных содержала информацию о перечне и ценах купленных по одному чеку товаров по 1,2 миллиона таких чеков, пробитых в двадцати пяти аптеках сети.
Анализ данных. Сегодня доступны значительно более сложные технологии интеллектуального поиска данных, но в 1992 году они еще не получили распространения. Команда аналитиков Teradata сформулировала запросы по базе данных, чтобы выявить товары, покупаемые вместе чаще, чем другие. Такой анализ, проведенный К. Хис, одной из членов группы, показал, что покупатели (вообще говоря, не обязательно мужчины), заходившие в магазин в интервале между 17:00 и 19:00 по четвергам и субботам, очень часто покупали вместе пиво и пеленки. Однако никаких статистических тестов для подтверждения того, что это не случайное явление, проведено не было.