Книга Голая статистика. Самая интересная книга о самой скучной науке - Чарльз Уилан
Шрифт:
Интервал:
Закладка:
Однако вывод об «отсутствии статистически значимой связи» между двумя переменными означает, что любую связь между этими переменными можно объяснить исключительно чистой случайностью. Газета The New York Times недавно провела собственное расследование относительно правдивости заявлений некоторых компаний, занимающихся разработкой программного обеспечения, о том, что их продукты повышают успеваемость учащихся. Желание изобличить обман у сотрудников The New York Times возникло после того, как в их руки попали данные, свидетельствующие об обратном{60}. В материале, опубликованном The New York Times, утверждалось, что Университет Карнеги‒Меллон продает компьютерную программу под названием Cognitive Tutor, сопровождаемую лозунгом «Революционный курс математики! Революционные результаты!» Между тем, оценка Cognitive Tutor, проведенная Министерством образования США, показала, что данный продукт «не оказывает никакого заметного влияния на результаты экзаменов по математике в старших классах. (The New York Times считает, что в соответствующей маркетинговой кампании следовало бы использовать более скромные заявления, например: «Заурядный курс математики. Сомнительные результаты».) В действительности анализ десяти программных продуктов, предназначенных для обучения математике или чтению, показал, что девять из них «не оказывают статистически значимого влияния на итоги сдачи экзаменов». Иными словами, любые различия в успеваемости между учащимися, которые пользуются и не пользуются этими программными продуктами, вполне могут быть обусловлены чистой случайностью.
Сейчас я сделаю небольшую паузу, чтобы напомнить вам, почему все это для нас так важно. В мае 2011 года в газете The Wall Street Journal вышла статья под заголовком «Причина аутизма в размере мозга». Это был настоящий прорыв, поскольку причины аутизма до сих пор не установлены. В первом же предложении этой статьи, в которой кратко излагался материал, опубликованный ранее в журнале Archives of General Psychiatry, сообщалось: «У детей, страдающих аутизмом, объем мозга больше, чем у здоровых детей, причем, согласно результатам нового исследования, обнародованным в понедельник, увеличение объема мозга, по-видимому, происходит в возрасте до двух лет»{61}. На основе томографического обследования 59 детей, страдающих аутизмом, и 38 здоровых детей ученые из Университета Северной Каролины пришли к выводу, что объем мозга у детей-аутистов на 10 % больше, чем у их здоровых сверстников.
Возникает естественный медицинский вопрос: существует ли какая-либо физиологическая особенность у мозга ребенка, страдающего аутизмом? Если да, то это может помочь нам понять причины развития аутизма, а также найти способы его лечения или профилактики.
Появляется и соответствующий статистический вопрос: могут ли исследователи делать далекоидущие выводы относительно общих причин аутизма, основываясь на обследовании сравнительно небольшой группы детей, страдающих аутизмом (59), и еще меньшей контрольной группы (38) – то есть всего 97 участников обследования? Ответ: да, могут. Ученые пришли к заключению, что вероятность наблюдения различий в общем объеме мозга, которые они обнаружили в двух своих выборках, составляла бы 2 из 1000 (p = 0,002), если на самом деле в совокупности в целом не существует никакой разницы в объеме мозга между детьми-аутистами и здоровыми детьми.
Я обратился к оригинальному исследованию, результаты которого были опубликованы в журнале Archives of General Psychiatry{62}. Методы, использованные в нем, ничуть не сложнее уже освоенных нами концепций. Приведу краткий обзор подоплеки этого социально и статистически значимого результата. Во-первых, вы должны признать, что каждая группа детей, 59 из которых страдают аутизмом, а 38 здоровы, представляет собой довольно крупную выборку, сформированную из соответствующих им совокупностей, то есть всех детей-аутистов и всех здоровых детей. Эти выборки достаточно большие для того, чтобы можно было применить центральную предельную теорему. Если вы уже подзабыли, в чем ее суть, я вам напомню: 1) средние значения выборок из какой-либо совокупности будут распределены примерно по нормальному закону вблизи среднего значения соответствующей совокупности; 2) можно ожидать, что среднее значение и среднеквадратическое (стандартное) отклонение выборки будут примерно равняться среднему значению и среднеквадратическому отклонению совокупности, из которой выборка извлечена; и 3) примерно 68 % средних значений выборок будут отстоять от среднего значения соответствующей совокупности на расстояние, не превышающее одной стандартной ошибки, примерно 95 % – на расстояние, не превышающее двух стандартных ошибок, и т. д.
Проще говоря, любая выборка должна быть очень похожа на совокупность, из которой она сформирована. Несмотря на то что все выборки несколько отличаются друг от друга, среднее значение надлежащим образом сформированной выборки довольно редко будет значительно отклоняться от среднего значения генеральной совокупности. Аналогично, можно ожидать, что две выборки, извлеченные из одной и той же совокупности, будут очень похожи друг на друга. Или, если представить ситуацию несколько иначе: две выборки со средними значениями, сильно разнящимися между собой, с наибольшей вероятностью сформированы из разных совокупностей.
Вот краткий пример, который должен быть понятен на интуитивном уровне. Допустим, ваша нулевая (основная) гипотеза гласит, что средний рост профессиональных баскетболистов равен среднему росту остальной части взрослого мужского населения. Вы формируете произвольным образом выборку из 50 профессиональных баскетболистов и выборку из 50 взрослых мужчин-неспортсменов. Допустим, что средний рост членов первой группы (баскетболисты) составляет 6 футов и 7 дюймов, а второй (небаскетболисты) – 5 футов и 10 дюймов (разница – 9 дюймов). Какова вероятность зафиксировать столь большую разницу между значениями среднего роста у этих двух выборок, если бы действительно (как мы предположили) средний рост профессиональных баскетболистов и всего остального взрослого мужского населения страны не отличался? «Нетехнический» ответ: чрезвычайно низкая[47].