Книга Голая статистика. Самая интересная книга о самой скучной науке - Чарльз Уилан
Шрифт:
Интервал:
Закладка:
Как отмечалось выше, авторы статьи, опубликованной в Archives of General Psychiatry, сообщают о p-значении, равном 0,002. Теперь вы понимаете, откуда взялась эта величина.
Несмотря на все достоинства статистического вывода, он не лишен недостатков. И они становятся очевидны из примера, приведенного в начале главы. Если вы помните, в нем речь шла о моем преподавателе статистики, заподозрившем меня в обмане. Процесс статистического вывода основывается на понятии вероятности, а вовсе не на абсолютной и не вызывающей ни малейшего сомнения достоверности. Таким образом, когда речь идет о проверке той или иной гипотезы, мы имеем дело с фундаментальной дилеммой.
Эта статистическая реальность заявила о себе во весь голос в 2011 году, когда Journal of Personality and Social Psychology готовился опубликовать одну научную статью, которая на первый взгляд ничем особенным не выделялась{63}. Некий профессор Корнелльского университета предложил нулевую гипотезу, а затем, на основе полученных им экспериментальных результатов, отверг ее с уровнем значимости 0,05. Этот результат произвел настоящий фурор в научных кругах, а также широко освещался в ведущих средствах массовой информации, таких как The New York Times.
Достаточно сказать, что статьи в Journal of Personality and Social Psychology обычно не привлекают к себе внимания СМИ. Что же вызвало на сей раз столь повышенный интерес прессы? Упомянутый мной исследователь проверял способность человека к экстрасенсорному восприятию (Extra Sensory Perception – ESP). Основная гипотеза ученого отрицала существование ESP; альтернативная подтверждала. Чтобы изучить вопрос, исследователь предложил большой выборке людей, которых он пригласил поучаствовать в эксперименте, рассмотреть два «занавеса», представленных на экране монитора. Компьютерная программа случайным образом помещала некое эротическое изображение то за одним, то за другим «занавесом». В ходе повторяющихся попыток испытуемым удалось правильно выбрать «занавес», за которым скрывалось эротическое изображение, в 53 случаях из 100, тогда как, согласно теории вероятностей, это должно происходить лишь в 50 случаях из 100. Достаточно большой размер выборки позволил ученому отклонить нулевую гипотезу и принять альтернативную. Решение опубликовать статью об этом эксперименте подверглось широкой критике на том основании, что какое-то одно статистически значимое событие вполне может оказаться следствием чистой случайности, особенно при отсутствии каких-либо других свидетельств, подтверждающих или даже объясняющих полученный результат. Статья в The New York Times так резюмировала критические высказывания: «Утверждения, которые бросают вызов практически всем законам науки, по определению являются экстраординарными и, как правило, требуют экстраординарных, неопровержимых доказательств. Нежелание учитывать это обстоятельство – как того требует общепринятый научный метод – делает результаты многих исследований гораздо значимее, чем они есть на самом деле».
Одним из достойных ответов на подобную критику был бы выбор более жесткого порога для определения статистической значимости, например 0,001[49]. Однако это порождает собственные проблемы. Выбор надлежащего уровня значимости в любом случае предполагает определенный компромисс.
Если наше «бремя доказательства», которое позволило бы отвергнуть основную гипотезу, будет чересчур низким (например 0,1), то нам придется периодически отклонять нулевую гипотезу, хотя на самом деле она верна (я подозреваю, что именно так и произошло при исследовании ESP). На языке статистики это называется ошибкой первого рода. Рассмотрим пример из судебной практики в США, где нулевая гипотеза заключается в том, что подсудимый (ответчик) невиновен, а порогом, когда она отвергается, является «критерий доказанности при отсутствии обоснованного сомнения» (то есть подсудимый признается виновным при отсутствии обоснованного сомнения в его невиновности). Допустим, мы решили ослабить этот порог, обозначив его, например, как «сильное подозрение, что подсудимый все же совершил данное преступление». Это должно гарантировать, что за решеткой окажется большее число настоящих преступников – а вместе с ними и большее число ни в чем не повинных людей. В статистическом контексте это эквивалентно использованию относительно низкого уровня значимости (например 0,1).
Ладно, «в 1 случае из 10» – не такое уж маловероятное событие. Рассмотрим эту проблему в контексте утверждения нового лекарства от рака. На каждые десять препаратов, которые мы одобряем с этим относительно низким «бременем статистического доказательства», один на практике оказывается неэффективным, а в процессе тестирования показывает обнадеживающие результаты лишь по чистой случайности. (Или, если воспользоваться примером из судебной практики, из каждых десяти подсудимых, признанных виновными, один фактически невиновен.) Ошибка первого рода заключается в ошибочном отказе от основной гипотезы. Иногда это называют «ложным позитивом», хотя употребление такого термина кажется несколько парадоксальным. Вот один способ примириться с подобным жаргоном. Когда вы приходите к врачу, чтобы выяснить, не страдаете ли вы некой болезнью, основная гипотеза заключается в том, что вы ею не страдаете. Если результаты анализов позволяют отвергнуть нулевую гипотезу, то врач говорит, что у вас положительный результат анализов. А если у вас положительный результат анализов, хотя в действительности вы не больны, то это и есть случай «ложного позитива».
Как бы то ни было, чем ниже «статистическое бремя» для отклонения нулевой гипотезы, тем выше вероятность «ложного позитива». Очевидно, что мы предпочли бы не утверждать неэффективные лекарства от рака и не отправлять невинных людей за решетку.
Но здесь есть один нюанс. Чем выше порог для отказа от нулевой гипотезы, тем вероятнее, что нам не удастся отвергнуть ту нулевую гипотезу, которую на самом деле следовало было бы отвергнуть. Если бы нам потребовалось не менее пяти свидетелей, чтобы признать виновным каждого обвиняемого, то на свободе оказалось бы немалое число настоящих преступников. (Разумеется, при этом за решетку не угодили бы многие невиновные люди.) Если при клинических испытаниях всех новых лекарств от рака мы примем уровень значимости 0,001, то мы действительно минимизируем утверждение неэффективных препаратов. (В этом случае будет лишь 1 шанс из 1000 ошибочно отвергнуть нулевую гипотезу, которая заключается в том, что испытываемое лекарство эффективно не более чем плацебо.) Однако при этом возникает риск не допустить на рынок много эффективных лекарств, поскольку мы установили очень высокую планку для их утверждения. На языке статистики это называется ошибкой второго рода, или «ложным негативом»[50].
Какая же из двух ошибок хуже? Это зависит от конкретных обстоятельств. Самое важное – что вы признаете необходимость компромисса. В статистике «бесплатный завтрак» невозможен. Рассмотрим перечисленные ниже нестатистические ситуации, каждая из которых предполагает достижение определенного компромисса между ошибками первого и второго рода.