Книга Голая статистика. Самая интересная книга о самой скучной науке - Чарльз Уилан
Шрифт:
Интервал:
Закладка:
То же самое можно сформулировать несколько иначе: любой мужчина в этом диапазоне роста не считался бы слишком высоким или низким. Это возвращает нас к результатам количественного анализа HCb2, которые так нас встревожили. Да, значение HCb2 на 12 пунктов выше среднего, но это меньше, чем одно среднеквадратическое отклонение, что является аналогом роста, близкого к 6 футам, – следовательно, никакой особой аномалии здесь не наблюдается. Разумеется, гораздо меньшее число наблюдений находится на расстоянии двух стандартных отклонений от среднего значения; еще меньшее число наблюдений находится на расстоянии трех или четырех стандартных отклонений. (Что касается роста, то американский мужчина выше среднего роста на три среднеквадратических отклонения достигал бы 6 футов 7 дюймов или был бы даже еще выше.)
Некоторые распределения более рассредоточены, чем другие. Следовательно, среднеквадратическое отклонение значений веса 250 пассажиров самолета будет выше, чем значений веса 250 бегунов-марафонцев. Распределение частот веса пассажиров самолета оказалось бы более «разбросанным», чем бегунов-марафонцев. После того как мы узнаем среднее значение и стандартное отклонение для какой-либо совокупности данных, мы получаем о ней весьма ценные сведения. Допустим, я сообщаю вам, что по результатам проведения единого экзамена по математике какого-либо штата средняя сумма баллов составила 500 при стандартном отклонении, равном 100. Как и в случае с ростом мужчин, большая часть учащихся, сдаваших экзамен, продемонстрировала результаты в пределах одного среднеквадратического отклонения от среднего значения, то есть между 400 и 600 баллами. Сколько учеников, по вашему мнению, получили 720 и выше? Наверное, очень немногие, поскольку такой показатель превышает два среднеквадратических отклонения от среднего значения.
Теперь не мешало бы уточнить, что в данном случае имеется в виду под словами «очень немногие». Думаю, самое время познакомить читателей с одним из наиболее важных, полезных и распространенных распределений в статистике – нормальным распределением. Данные, которые распределены согласно этому закону, располагаются симметрично относительно своего среднего значения, причем это распределение имеет колоколообразную форму, которая наверняка вам хорошо знакома.
Нормальное распределение описывает многие явления, часто встречающиеся в жизни. Представьте себе распределение частот, описывающее, как стреляют зерна воздушной кукурузы (попкорна) на плите. Некоторые зерна начинают лопаться раньше остальных, издавая примерно один-два хлопка в секунду; через десять или пятнадцать секунд зерна уже взрываются как сумасшедшие. Постепенно количество хлопков в секунду сокращается приблизительно до частоты, наблюдавшейся в самом начале поджаривания. Значения роста мужчин-американцев распределены практически в соответствии с законом нормального распределения, то есть расположены почти симметрично относительно среднего значения (5 футов 10 дюймов). Каждый тест SAT специально разрабатывается таким образом, чтобы обеспечить нормальное распределение результатов со средним значением 500 при среднеквадратическом отклонении, равном 100. Согласно Wall Street Journal, американцы даже склонны по закону нормального распределения парковать свои автомобили у крупных торговых центров: большинство автомобилей паркуются напротив центрального входа в торговый центр («вершина» кривой нормального распределения), а «хвосты» машин расходятся вправо и влево от центрального входа.
Красота нормального распределения – его мощь, изящество и элегантность – обусловлена тем, что нам по определению известно, какая именно доля наблюдений в нормальном распределении находится в пределах одного среднеквадратического отклонения от среднего значения (68,2 %), двух среднеквадратических отклонений от среднего значения (95,4 %), трех среднеквадратических отклонений от среднего значения (99,7 %) и т. д. Хотя все это может показаться тривиальным, это именно тот фундамент, на котором строится значительная часть статистики. Мы вернемся к концепции нормального распределения чуть позже, чтобы рассмотреть ее подробнее.
Средним значением является средняя линия, которую часто обозначают греческой буквой µ. Среднеквадратическое (стандартное) отклонение зачастую обозначают греческой буквой σ. Каждая вертикальная полоса на графике представляет одно среднеквадратическое отклонение.
Описательные статистики часто служат для сравнения двух значений или величин. Я на один дюйм выше своего брата; сегодня температура воздуха на девять градусов больше «исторического среднего» для этой даты и т. д. Такие сравнения имеют смысл, поскольку большинство из нас признают используемые в этих случаях шкалы единиц измерения. Один дюйм – не так много, когда речь идет о человеческом росте, поэтому вы можете заключить, что у нас с братом примерно одинаковый рост. И напротив, девять градусов – значительное отклонение температуры воздуха практически для любого климата в любое время года; поэтому, если в какой-то из дней было зафиксировано превышение средней температуры на девять градусов, это существенная аномалия. Но допустим, я сообщу, что хлопья Granola Cereal A содержат на 31 миллиграмм больше натрия, чем хлопья Granola Cereal B. Если вы не знакомились со специальной литературой, в которой рассматриваются последствия употребления в пищу натрия, и не знаете, о какой величине порции хлопьев идет в данном случае речь, на основе приведенной выше информации вы не сделаете полезных выводов. А если я скажу вам, что мой кузен Эл заработал в текущем году на 53 000 долларов меньше, чем в прошлом? Следует ли нам тревожиться за судьбу Эла? А что если он управляющий хедж-фонда, для которого сумма 53 000 долларов соизмерима с ошибкой округления при подсчете его годового дохода?
В примерах с содержанием натрия в хлопьях и доходом Эла отсутствует контекст, который позволил бы оценить масштаб проблемы, если таковая имеется. Самый простой способ придать смысл этим сравнениям – использовать процентные величины. Если бы я сообщил вам, что хлопья Granola Cereal A содержат на 50 % больше натрия, чем хлопья Granola Cereal B, а доход моего кузена Эла сократился в прошлом году на 47 %, это позволило бы вам сделать определенные выводы. Оценка тех или иных изменений в процентах предоставляет нам нечто наподобие шкалы.
Поскольку в школе вас наверняка научили вычислять проценты, не исключено, что у вас возникнет соблазн не читать несколько следующих абзацев. Что ж, возможно, вы правы. Однако прежде чем принять окончательное решение, выполните одно простое упражнение. Допустим, в универмаге продается платье за 100 долларов. Заместитель директора универмага решает снизить цену всех товаров на 25 %. Но впоследствии его увольняют за то, что он зависает в баре с Биллом Гейтсом[13], а новый заместитель директора распоряжается повысить все цены на 25 %. Какой окажется окончательная цена платья? Если вы скажете (или подумаете), что 100 долларов, то вам лучше все же читать текст подряд.