Книга Голая статистика. Самая интересная книга о самой скучной науке - Чарльз Уилан
Шрифт:
Интервал:
Закладка:
Группа графического дизайна бросается строить красочную трехмерную диаграмму, чтобы вы могли отобразить ее на экранах ваших телезрителей:
Представитель Республиканской партии 53 %
Представитель Демократической партии 45 %
Независимый кандидат 2 %
(Предел погрешности 2 %)
Поначалу ваш босс приходит в восторг – главным образом потому, что диаграмма представлена в трехмерном виде, насыщена яркими красками и даже может вращаться на экране вокруг вертикальной оси. Однако когда вы объясняете, что примерно в 68 случаях из 100 результаты экзитпола будут отличаться от действительных результатов выборов не более чем на одну стандартную ошибку, ваш начальник, которому уже не раз приходилось посещать курсы аутотренинга и управления негативными эмоциями, указывает на совершенно очевидную вещь: в 32 случаях из 100 результаты экзитпола будут отличаться от действительных результатов выборов более чем на одну стандартную ошибку. И что тогда?
Вы объясняете, что есть два варианта: 1) кандидат от республиканцев мог получить даже больше голосов, чем предсказывал экзитпол, тогда все равно вы назвали бы победителя правильно; 2) но существует достаточно высокая вероятность того, что кандидат от демократов набрал гораздо больше голосов, чем предсказывал экзитпол; в этом случае ваша восхитительная красочная вращающаяся трехмерная диаграмма объявит победителя неправильно.
Босс запускает чашкой с кофе в стену, из чего вы делаете вывод, что посещение курсов аутотренинга и управления негативными эмоциями не пошло ему на пользу. Между тем, начальник продолжает бушевать: «Как, черт бы вас побрал, мы можем быть уверены в правильности результата, показанного на вашей …ной диаграмме?»
Понимая кое-что в статистике, вы указываете ему, что не можете быть уверены в каком-либо результате до тех пор, пока не будут подсчитаны все голоса. И предлагаете в качестве критерия уверенности воспользоваться 95-процентным доверительным интервалом. В данном случае ваша восхитительная красочная вращающаяся 3D-диаграмма предскажет победителя неправильно в среднем лишь в 5 случаях из 100.
Начальник закуривает сигарету и пытается успокоиться. Вы решаете не напоминать ему о запрете курения на рабочем месте, несмотря на участившиеся в последнее время случаи пожаров в офисах, однако все же отваживаетесь поделиться кое-какими плохими новостями: единственный способ, позволяющий вашей телекомпании повысить уверенность в результатах экзитпола, – расширить предел погрешности, но тогда однозначно назвать победителя выборов будет невозможно. После этого вы показываете начальнику новую 3D-диаграмму:
Представитель Республиканской партии 53 %
Представитель Демократической партии 45 %
Независимый кандидат 2 %
(Предел погрешности 4 %)
Из центральной предельной теоремы вам известно, что приблизительно 95 % пропорций выборки будут отстоять от истинной пропорции доли голосов совокупности на расстоянии, не превышающем двух стандартных ошибок (в данном случае 4 %). Таким образом, если мы хотим обеспечить большую уверенность в результатах экзитпола, то нам придется умерить свои амбиции в том, что касается точности прогноза. Как следует из приведенной выше пропорции доли голосов (к сожалению, мы не можем показать здесь соответствующую красочную вращающуюся 3D-диаграмму), ваша телекомпания может, при 95 %-ном доверительном уровне, объявить о том, что кандидат от республиканцев получил 53 % голосов избирателей ± 4 %, то есть между 49 и 57 % голосов избирателей, а кандидат от демократов – 45 % ± 4 %, то есть между 41 и 49 % голосов избирателей.
Правда, теперь вы сталкиваетесь с новой проблемой. При 95 %-ном доверительном уровне вы не можете отвергнуть вероятность того, что каждый из кандидатов мог набрать по 49 % голосов избирателей. Это неизбежный компромисс; единственная возможность обрести большую уверенность в том, что результаты вашего экзитпола будут соответствовать истинным результатам выборов без использования новых данных, – обуздать свои амбиции относительно точности прогнозов. Подумайте об этом вне статистического контекста. Допустим, вы говорите приятелю, что «почти не сомневаетесь» в том, что Томас Джефферсон был третьим или четвертым президентом США. Каким образом вы можете обрести большую уверенность в своих исторических познаниях? Снизив категоричность утверждений. Можно, например, сказать, что вы «абсолютно уверены» в том, что Томас Джефферсон был одним из первых пяти президентов США.
Ваш начальник предлагает вам заказать пиццу и быть готовым к тому, что придется поработать вечером (или даже всю ночь). На этот раз статистические боги оказываются к вам милостивы. Вам на стол кладут данные второго экзитпола, для проведения которого использовалась выборка из 2000 избирателей. Его результаты таковы: кандидат-республиканец – 52 % голосов, кандидат-демократ – 45 % голосов, независимый кандидат – 3 % голосов. На этот раз ваш босс совершенно взбешен, поскольку эти данные показывают, что разрыв между кандидатами сократился, а это еще больше затрудняет своевременное предсказание итогов голосования. Но не нужно спешить с выводами! Вы указываете (стараясь сохранять присутствие духа), что размер второй выборки (2000) в четыре раза больше первой, которая использовалась при проведении первого экзитпола. Таким образом, стандартная ошибка существенно уменьшилась. Новая стандартная ошибка для кандидата от республиканцев равняется √[0,52(0,48)/2000], что составляет 0,01.
Если вашего начальника по-прежнему устраивает 95 %-ный доверительный интервал, то вы можете объявить победителем кандидата от республиканцев. С учетом вашей новой стандартной ошибки 0,01 95 %-ные доверительные интервалы для кандидатов таковы: кандидат-республиканец: 52 ± 2, или между 50 и 54 % голосов избирателей; кандидат-демократ 45 ± 2, или между 43 и 47 % голосов избирателей. Теперь между этими двумя доверительными интервалами нет никакого взаимного перекрытия. Вы можете в прямом эфире сообщить, что на выборах победил кандидат от республиканцев; такой прогноз окажется правильным более чем в 95 случаях из 100[52].
Но это даже лучше. Из центральной предельной теоремы вам известно, что в 99,7 % случаев пропорция долей выборки будет отстоять от истинной пропорции долей совокупности на расстоянии, не превышающем трех стандартных ошибок. В нашем примере с выборами 99,7 %-ные доверительные интервалы для двух кандидатов таковы: кандидат от республиканцев: 52 ± 3 %, или между 49 и 55 % голосов избирателей; кандидат от демократов 45 ± 3 %, или между 42 и 48 % голосов избирателей. То есть после того как вы объявите победителем выборов кандидата-республиканца, благодаря новой выборке из 2000 избирателей останется лишь ничтожная вероятность того, что вы вместе со своим начальником будете уволены.