Книга Наукообразная чушь. Разоблачение мошенничества, предвзятости, недобросовестности и хайпа в науке - Стюарт Ричи
Шрифт:
Интервал:
Закладка:
Такая же критика часто звучит в отношении другой важной альтернативы p-значениям – байесовской статистики. Основанный на теореме о вероятности, которую сформулировал статистик XVIII века Томас Байес, этот метод позволяет исследователям учитывать силу предыдущих доказательств – называемых “априорными” – при оценке значимости новых результатов. Например, если кто-то скажет вам, что прогноз погоды предсказывает дождливый день в Лондоне осенью, этому человеку не придется долго вас убеждать. С другой стороны, если прогноз предсказывает снежную бурю в пустыне Сахара в июле, вы, вероятно, воспримете сие утверждение весьма скептически, учитывая весь предыдущий опыт, говорящий нам о знойном сахарском лете. Приверженец байесовского подхода может включить все эти предварительные свидетельства в свой расчет – и в случае с Сахарой новый прогноз должен быть чрезвычайно убедительным, чтобы опровергнуть все предыдущие метеорологические данные[709]. С p-значениями такого не провернуть, поскольку они почти всегда рассчитываются независимо от любых предыдущих доказательств. Однако байесовская “априорность” по своей сути субъективна: все согласятся с тем, что в Сахаре жарко и сухо, но насколько сильно до начала исследования мы должны верить, что определенное лекарство уменьшит симптомы депрессии или что конкретная государственная политика будет способствовать экономическому росту, – вопрос весьма спорный.
Помимо учета априорных знаний байесовская статистика имеет и другие отличия от p-значений[710]. Например, на нее меньше влияет размер выборки: статистическая мощность тут роли не играет, поскольку байесовский подход направлен не на определение влияния конкретного набора условий, а просто на взвешивание доказательств за и против гипотезы. Еще байесовский подход, пожалуй, ближе к обычным рассуждениям людей о статистике. Приверженцы байесовского метода спрашивают: “Какова вероятность, что моя гипотеза верна, учитывая эти наблюдения?” – и это более интуитивный подход, чем тот, что основан на p-значениях, когда вопрос звучит так: “Какова вероятность, что я получил бы эти наблюдения при условии, что моя гипотеза не верна?”[711]
Любой статистический подход имеет свои плюсы и минусы[712]. Хотя некоторые критики в этих дебатах заявляют, будто p-значения – корень всех зол, числовой Крысолов, который сбивает с толку вообще-то здравомыслящих ученых, крайне маловероятно, что мошенничество, предвзятость, недобросовестность и хайп, о которых мы говорили в этой книге, вдруг испарятся, если мы просто избавимся от одного статистического инструмента и возьмем на вооружение другой. Статистика сама по себе не способна решить главную проблему: исправить изъяны человеческой природы и, как следствие, научной системы. Независимо от того, какой статистический подход будет доминирующим, некоторые ученые найдут способы обойти систему, чтобы придать своим результатам более впечатляющий вид. Как мы увидим дальше, решения этих проблем должны лежать в области мотивации и культуры.
А пока, вместо того чтобы призывать исследователей полностью отказаться от статистического метода, особенно столь глубоко укоренившегося, как проверка значимости, полезно, наверное, получше объяснить ученым, что он способен показать, а что не способен, и начать использовать его немного иначе – так, чтобы избегать ошибок. Например, недавно было предложено изменить стандартный критерий для значимости с p < 0,05 на p < 0,005, то есть сильно поднять планку, которую должны преодолеть результаты, чтобы считаться интересными[713]. Учитывая нарывы, вскрытые кризисом воспроизводимости, мы должны, казалось бы, значительно осторожнее относиться к тому, что принимаем в качестве доказательств наших гипотез. Но поднятие планки опасно: если только мы не увеличим одновременно размер всех своих выборок, наши тесты будут обладать гораздо меньшей статистической мощностью. Правда, сторонники значения 0,005 доказывают, что проблема ложноположительных результатов, которую их метод, вероятно, уменьшит, требует решения сильнее, чем проблема результатов ложноотрицательных.
Вот еще один способ борьбы со статистической предвзятостью и p-хакингом: полностью вывести анализ данных из-под контроля исследователей. В таком сценарии после сбора данных ученые должны будут передавать их для анализа независимым статистикам или другим специалистам, которые, как предполагается, практически свободны от конкретных предубеждений и стремлений тех, кто разработал и провел эксперимент[714]. Управлять подобной системой было бы непросто, и легко представить, как она ведет к конфликтам, когда ученые не согласны с анализом или интерпретацией, которые назначенный статистик навязал их ценным данным[715]. Но, как и в случае с некоторыми радикальными идеями для реформ, которые мы обсудим дальше, пожалуй, в небольших масштабах это все же стоило бы попробовать сделать.
В четвертой главе мы видели, что огромное количество способов, какими можно проанализировать набор данных, тоже доставляет ученым проблемы: откуда им знать, что выбранный анализ не даст как раз случайные результаты? Альтернатива беспокойству, верно ли вы выбрали конкретный анализ, – принять проблему “сада расходящихся тропок” и прогнать все анализы, какие только можно провести с вашим набором данных. Вы могли бы включать и исключать определенных участников, объединять и разделять определенные переменные, вводить и не вводить поправку на определенные спутывающие факторы – и основывать свои выводы на том, что результаты говорят вам в целом. Этой идее дали множество названий, например “анализ кривой спецификаций”, “анализ вибраций эффектов” и, мое любимое, “анализ мультивселенной”[716]. Если мы представим себе бесконечное число параллельных вселенных, в каждой из которых вы провели анализ немного по-другому, в какой доле из них вы обнаружили бы одинаковый эффект? А в какой доле – совершенно противоположный? Все ли эти анализы в целом сходились бы к одному и тому же общему результату?
Оксфордские психологи Эми Орбен и Эндрю Пшибыльски, например, использовали анализ мультивселенной для решения животрепещущего вопроса о влиянии экранного времени на психическое здоровье