Книга Голая статистика. Самая интересная книга о самой скучной науке - Чарльз Уилан
Шрифт:
Интервал:
Закладка:
Вам повезло: вы натыкаетесь на какой-то сломавшийся автобус неподалеку от своего дома; возле автобуса коротает время группа расстроенных пассажиров, причем ни один из них не говорит по-английски. Наверное, это и есть тот автобус, который вы разыскиваете! У вас появляется шанс стать героем дня. Правда, вас смущает одно обстоятельство: пассажиры автобуса – слишком упитанные люди. Окинув эту группу взглядом, вы заключаете, что средний вес ее пассажиров превышает 220 фунтов. Трудно представить, что в случайно сформированной группе бегунов-марафонцев могут оказаться столь колоритные экземпляры. Вы звоните по мобильному телефону в штаб-квартиру поисковой команды и сообщаете: «Мне кажется, это не тот автобус, который мы ищем. Продолжайте поиск».
Дальнейший анализ подтверждает ваше первоначальное предположение. Когда на место прибывает переводчик, оказывается, что сломавшийся автобус направлялся на Международный фестиваль любителей сосисок, который также проводится в вашем городе, причем в тот же день, что и марафонский забег. (Для большего правдоподобия замечу, что участники фестивалей любителей сосисок нередко ходят в спортивных брюках свободного покроя, которые не стесняют их движений.)
Примите мои поздравления! Если вам понятно, каким образом человек, просто окинув беглым взглядом группу пассажиров автобуса и оценив их вес, может прийти к выводу, что конечным пунктом назначения этого автобуса вряд ли может быть место старта марафонского забега, значит, на интуитивном уровне вы уже постигли базовую идею центральной предельной теоремы. И все, что вам остается, это уяснить некоторые детали. А если вы понимаете центральную предельную теорему, то и большинство форм статистических выводов наверняка покажутся вам интуитивно понятными.
Базовый принцип, лежащий в основе центральной предельной теоремы, заключается в том, что большая, надлежащим образом сформированная выборка будет похожа на совокупность, из которой она извлечена. Разумеется, от выборки к выборке будут наблюдаться определенные вариации (например, группа пассажиров в каждом автобусе, направляющемся к месту старта марафонского забега, будет несколько отличаться от группы пассажиров в других автобусах), однако вероятность того, что какая-либо выборка будет существенно разниться с генеральной совокупностью, крайне низка. Именно эта логика позволила вам прийти к указанному выше интуитивному умозаключению, когда вы подошли к сломавшемуся автобусу и беглым взглядом оценили средний вес его пассажиров. Да, марафонскую дистанцию нередко бегут люди довольно плотного телосложения; среди участников каждого крупного марафона немало спортсменов, вес которых превышает 200 фунтов. Однако большинство бегунов-марафонцев – худощавые люди. Таким образом, вероятность того, что столь значительное число упитанных бегунов по случайному стечению обстоятельств окажется в одном автобусе, чрезвычайно мала. Вы могли бы вполне уверенно заключить, что встретившийся вам автобус перевозит не марафонцев. Конечно, не исключено, что вы ошибаетесь, однако, согласно теории вероятностей, шансы на ошибку в данном случае очень и очень невелики.
В этом и состоит интуитивная основа центральной предельной теоремы. Воспользовавшись кое-какими статистическими «прибамбасами», можно вычислить вероятность того, окажетесь ли вы правы или неправы. Например, мы можем подсчитать, что в случае, когда речь идет о 10 000 участниках марафонского забега, средний вес которых равняется 155 фунтов, вероятность того, что средний вес случайной выборки из 60 таких бегунов (примерная вместимость одного автобуса) окажется не ниже 220 фунтов, составляет менее одного шанса из 100. Давайте на данном этапе доверимся интуиции; впоследствии у нас будет немало возможностей выполнить соответствующие вычисления.
Центральная предельная теорема позволяет нам сделать перечисленные ниже выводы (их мы детально проанализируем в следующей главе).
1. Располагая подробными сведениями о какой-то совокупности, мы можем сделать далекоидущие выводы о любой надлежащим образом сформированной из нее выборке. Допустим, например, что у директора школы есть детальная информация о результатах сдачи стандартизованного теста всеми учащимися школы (среднее значение, среднеквадратическое отклонение и т. д.). Это значимые характеристики всей совокупности. Теперь предположим, что на следующей неделе ожидается прибытие некоего чиновника окружного управления образования, который намерен провести такой же стандартизованный тест для 100 случайным образом отобранных учеников. Результаты, продемонстрированные этой выборкой учащихся, будут использованы для оценки качества преподавания в данной школе.
Может ли директор школы с уверенностью утверждать, что баллы этих 100 произвольно отобранных учеников будут точно отражать результаты всех учащихся данной школы при сдаче этого теста? Вполне. Согласно центральной предельной теореме, средний тестовый балл группы из 100 учащихся, как правило, не будет существенно отличаться от среднего балла всех учеников данной школы.
2. Располагая подробными сведениями о какой-либо надлежащим образом сформированной выборке (среднее значение и среднеквадратическое отклонение), мы можем сделать чрезвычайно точные выводы относительно совокупности, из которой эта выборка была получена. По сути, это обратный вариант ситуации, которую мы рассматривали в приведенном выше примере. Иными словами, мы должны поставить себя на место чиновника окружного управления образования, который оценивает школы в своем округе. В отличие от директора школы, этот чиновник не располагает результатами (или не доверяет им) сдачи стандартизованного теста всеми учащимися конкретной школы. Вместо этого он проводит в каждой школе аналогичный тест для произвольной выборки из 100 учеников.
Может ли этот чиновник быть уверен, что качество преподавания в какой-либо конкретной школе в целом можно точно оценить, основываясь на результатах сдачи стандартизованного теста группой из 100 учащихся соответствующей школы? Да, может. Центральная предельная теорема гласит, что достаточно большая выборка, как правило, не будет существенно отличаться от генеральной совокупности, а это означает, что результаты, продемонстрированные этой выборкой (то есть баллы 100 случайным образом отобранных учащихся), с достаточной степенью точности отражают результаты соответствующей совокупности в целом (то есть баллы всех учащихся конкретной школы). Разумеется, именно на таком принципе строятся все опросы. Методологически правильный опрос 1200 человек может многое поведать о настроениях всего населения страны.
Итак, если сказанное выше в п. 1 верно, то сказанное в п. 2 также должно быть верно, и наоборот. Если какая-то выборка, как правило, хорошо отражает совокупность, из которой она была сформирована, то верно и обратное: совокупность, как правило, будет похожа на выборку, сформированную из нее. (Если дети похожи на своих родителей, то и родители должны быть похожи на своих детей.)
3. Наличие данных о какой-то конкретной выборке и данных о какой-то конкретной совокупности позволяет определить, согласуется ли эта выборка с другой выборкой, которая, возможно, получена из той же совокупности. Здесь речь идет, по сути, о примере с пропавшим автобусом, приведенном в начале главы. Нам известен (приблизительно) средний вес участников марафона. Нам также известен (приблизительно) средний вес пассажиров сломавшегося автобуса. Центральная предельная теорема позволяет нам вычислить вероятность того, что конкретная выборка (упитанные люди в автобусе) была сформирована из данной совокупности (участники марафонского забега). Если эта вероятность невелика, то с высокой степенью уверенности можно заключить, что данная выборка сформирована не из интересующей нас совокупности (например, люди в автобусе отнюдь не похожи на группу бегунов-марафонцев, направляющихся к месту старта).