Книга Голая статистика. Самая интересная книга о самой скучной науке - Чарльз Уилан
Шрифт:
Интервал:
Закладка:
4. Наконец, если нам известны исходные характеристики двух выборок, то мы можем определить, сформированы ли они из одной и той же совокупности. Вернемся еще раз к становящемуся все более абсурдным примеру с автобусом. Теперь нам известно, что марафонский забег будет проводиться в данном городе – равно как и Международный фестиваль любителей сосисок. Допустим, что в обеих группах тысячи участников и обе наняли десятки автобусов, в каждый из которых поместили произвольные выборки либо бегунов-марафонцев, либо поглотителей сосисок. Допустим также, что при перевозке участников этих мероприятий столкнулись два автобуса. (Я уже признал абсурдность своего примера, поэтому сценарий развития событий не должен вас удивлять. Просто продолжайте спокойно читать дальше.) Будучи, как было сказано выше, одним из видных общественных активистов в городе, вы прибываете на место происшествия и пытаетесь определить, ехали ли оба автобуса на одно и то же мероприятие (фестиваль любителей сосисок или марафонский забег). К несчастью, никто из пострадавших не говорит по-английски, но врачи скорой помощи, оперативно прибывшие на место происшествия, сообщают вам подробную информацию о весе каждого из пассажиров в столкнувшихся автобусах.
Основываясь лишь на этих сведениях, вы можете заключить, куда направлялись эти автобусы: на одно и то же мероприятие или на два разных. Как и прежде, положимся на интуицию. Допустим, что средний вес пассажиров в одном автобусе равняется 157 фунтам при среднеквадратическом (стандартном) отклонении 11 фунтов (это означает, что вес значительной части пассажиров находится в диапазоне от 146 до 168 фунтов). Теперь предположим, что средний вес пассажиров второго автобуса составляет 211 фунтов при среднеквадратическом отклонении 21 фунт (это означает, что вес значительной части пассажиров находится в диапазоне от 190 до 232 фунтов). Забудем на какое-то время о статистических формулах и будем опираться исключительно на логику: представляется ли вам вполне вероятным, что пассажиры обоих автобусов были случайным образом извлечены из одной и той же совокупности?
Вовсе нет. Более вероятным кажется то, что в одном из двух автобусов ехали бегуны-марафонцы, а в другом – любители сосисок. Помимо ощутимой разницы в показателях среднего веса пассажиров двух автобусов, нетрудно также заметить, что разброс в весе между этими двумя автобусами очень велик по сравнению с разбросом в весе в каждом из двух автобусов. Максимальный вес людей в «худощавом» автобусе (168 фунтов, что на одно среднеквадратическое отклонение больше среднего значения) меньше, чем минимальный вес людей в «упитанном» автобусе (190 фунтов, что на одно среднеквадратическое отклонение меньше среднего значения). Это верный признак (как со статистический, так и с логической точки зрения) того, что две выборки сформированы, скорее всего, из разных совокупностей.
Если на интуитивном уровне все это представляется вам вполне логичным, то вы уже на 93,2 % приблизились к пониманию сути центральной предельной теоремы[40]. Чтобы придать этому интуитивному выводу некую техническую солидность, нам необходимо продвинуться еще на один шаг вперед. Очевидно, когда вы заглядываете в поломанный автобус и видите там группу довольно упитанных людей в спортивных брюках свободного покроя, у вас тотчас же мелькает догадка, что вряд ли это бегуны на марафонские дистанции. Центральная предельная теорема позволяет нам подвести под свои предположения солидную теоретическую базу и придать им определенную степень уверенности.
Например, исходя из неких базовых вычислений я могу заключить, что в 99 случаях из 100 средний вес пассажиров любого случайным образом выбранного автобуса с бегунами будет отличаться не более чем на девять фунтов от среднего веса всех зарегистрированных участников марафона. Именно это служит статистическим подтверждением моей догадки, когда я натыкаюсь на поломанный автобус с людьми. Средний вес его пассажиров на двадцать один фунт превышает средний вес всех зарегистрированных участников марафона, а это значит, что вероятность принадлежности пассажиров этого автобуса к составу участников забега не превышает 1 шанс из 100. Это позволяет мне с 99-процентной уверенностью отвергнуть гипотезу о том, что встретившийся мне автобус перевозил спортсменов (иными словами, я могу рассчитывать на то, что сделанный мною вывод окажется правильным в 99 случаях из 100).
Правда, согласно теории вероятностей, в среднем я окажусь неправ в 1 случае из 100.
Анализ такого рода целиком следует из центральной предельной теоремы, которая, с точки зрения статистики, обладает такой же мощью и элегантностью, как действия Леброна Джеймса на баскетбольной площадке. Согласно центральной предельной теореме, средние значения выборок для любой совокупности будут распределены относительно ее среднего значения примерно по нормальному закону. Ниже я постараюсь разъяснить это положение.
1. Допустим, у нас есть некая совокупность, например все зарегистрированные участники марафона, и нас интересует вес каждого бегуна. Любая выборка участников марафона (например шестидесят бегунов, перевозимых каждым автобусом) будет характеризоваться средним значением их веса.
2. Если делать повторные выборки из всего состава зарегистрированных участников марафона, например формировать случайным образом группы из шестидесяти бегунов, то каждая из этих выборок будет характеризоваться собственным средним значением веса. Это и будут средние значения выборок.
3. Большинство этих средних значений будут очень близки к среднему значению веса для данной совокупности. Какие-то из них окажутся чуть больше, какие-то – чуть меньше. По чистой случайности лишь очень немногие из них будут существенно превышать или быть ниже среднего значения веса для данной совокупности.
Прислушайтесь к этой музыке, поскольку именно сейчас все звуки сливаются в мощное крещендо…
4. Центральная предельная теорема гласит, что эти средние значения выборок будут распределены относительно среднего значения совокупности примерно по нормальному закону. Нормальное распределение, как вы, наверное, помните из главы 2, представляет собой распределение колоколообразной формы (например, величины веса взрослых мужчин), в котором 68 % наблюдений находятся на расстоянии одного среднеквадратического отклонения от среднего значения, 95 % наблюдений – на расстоянии двух среднеквадратических отклонений и т. д.
5. Все эти утверждения будут истинными, как бы ни выглядело распределение исходной совокупности. Чтобы средние значения выборок были распределены по нормальному закону, вовсе не обязательно, чтобы совокупность, из которой получены эти выборки, имела нормальное распределение.
Рассмотрим реальные данные, например распределение семейного дохода в Соединенных Штатах. Семейный доход в США не распределен по нормальному закону, а, как правило, скошен вправо. В любом данном году никакая из семей не может заработать меньше 0 долларов, поэтому у данного распределения должна быть нижняя граница. Между тем, годовые доходы у какой-то небольшой группы семей могут быть очень велики – сотни миллионов, а в отдельных случаях даже миллиарды долларов. В результате можно ожидать, что распределение семейного дохода в стране будет характеризоваться длинным «хвостом» справа, нечто наподобие этого: