Книга Голая статистика. Самая интересная книга о самой скучной науке - Чарльз Уилан
Шрифт:
Интервал:
Закладка:
Сильно коррелированные объясняющие переменные (мультиколлинеарность). Если уравнение регрессии включает две объясняющие переменные (или даже больше), сильно коррелированные между собой, то анализ вполне может не выявить истинной зависимости между каждой из этих переменных и исходом, который мы пытаемся объяснить. Приведу соответствующий пример. Допустим, мы хотим измерить влияние противозаконного использования наркотиков на результаты сдачи экзаменов. В частности, мы располагаем данными о том, употребляли ли когда-либо участники нашего исследования кокаин и «баловались» ли когда-либо героином. (Будем исходить из того, что в нашем распоряжении есть и много других управляющих переменных.) Каково влияние употребления кокаина на результаты сдачи экзаменов (при условии неизменности всех остальных факторов, включая употребление героина)? А каково влияние употребления героина на итоги экзаменов (при условии неизменности всех остальных факторов, включая употребление кокаина)?
Вполне возможно, что коэффициенты по употреблению героина и кокаина не смогут ответить на интересующие нас вопросы. Методологическая проблема в данном случае заключается в том, что те, кто «баловался» героином, наверняка употребляли и кокаин. Если поместить в уравнение обе переменные, то число тех, кто употреблял один из этих наркотиков, но не употреблял другой, окажется очень незначительным. Это оставит нам довольно мизерное расхождение в данных, на основании которого мы могли бы вычислить их независимые влияния. Вспомните мысленный эксперимент, который мы провели в предыдущей главе, чтобы объяснить регрессионный анализ. Мы распределили выборку данных по разным комнатам, в которых каждое наблюдение идентично за исключением одной переменной, что позволяло затем вычленить влияние этой переменной, параллельно контролируя другие факторы, потенциально способные сказываться на интересующем нас исходе. В нашей выборке может быть 692 человека, которые употребляли и кокаин, и героин. Но у нас может быть и всего три человека, которые употребляли только кокаин, и два человека, употреблявших только героин. Любой вывод относительно независимого влияния лишь одного или другого наркотика будет основываться на этих крошечных выборках.
Вряд ли нам удастся получить достоверные коэффициенты регрессии по какой-либо из этих двух переменных (кокаин или героин); мы можем также проигнорировать более сильную и важную зависимость между результатами экзаменов и употреблением какого-то одного из этих наркотиков. Когда две объясняющие переменные сильно коррелированны между собой, исследователи обычно используют в уравнении регрессии какую-то одну из них; как вариант, они могут создать некую составную переменную, например «употреблял кокаин или героин». Если же исследователи хотят контролировать в целом социально-экономическое положение учащегося, они могут включить переменные «образование матери» и «образование отца», поскольку это обеспечивает важное указание на уровень образования соответствующей семьи в целом. Однако если цель регрессионного анализа – вычленить влияние либо образования отца, либо образования матери, то включение в уравнение обеих переменных скорее запутает вопрос, чем внесет в него ясность. Корреляция между уровнями образования мужа и жены столь высока, что мы не можем полагаться на то, что регрессионный анализ даст нам коэффициенты, которые позволят надлежащим образом вычленить влияние образования кого-либо из родителей (это так же трудно, как обособить влияние употребления кокаина от влияния употребления героина)[69].
Экстраполяция за границы имеющихся данных. Регрессионный анализ, как и все формы статистического вывода, помогает нам лучше понять окружающий мир. Мы пытаемся выявить закономерности, которые будут общими и для более крупной совокупности. Однако наши результаты будут справедливы лишь для совокупности, подобной выборке, в отношении которой выполнялся анализ. В предыдущей главе я создал уравнение регрессии, позволяющее предсказывать вес, основываясь на ряде независимых переменных. Значение R² в моей окончательной модели равнялось 0,29; это означает, что оно дает возможность объяснить разброс веса для крупной выборки людей, если все они оказались взрослыми.
Итак, что же произойдет, если мы воспользуемся нашим уравнением регрессии для предсказания вероятного веса новорожденного младенца? Давайте проверим. При рождении рост моей дочери составлял 21 дюйм. Допустим, ее возраст в момент рождения равнялся нулю; у нее, конечно же, не было образования и она не занималась спортом. Она относилась к белой расе и была женского пола. Уравнение регрессии, основанное на данных America’s Changing Lives, предсказывает, что ее вес при рождении должен иметь отрицательную величину: ‒19,6 фунта. (В действительности она весила 8,5 фунта.)
Авторы одного из исследований, выполнявшихся по заказу британского правительства (мы упоминали о них в предыдущей главе), сделали совершенно четкий вывод: «Неспособность работника влиять на свою рабочую среду ассоциируется с повышенным риском развития заболеваний сердечно-сосудистой системы среди государственных служащих»{81} (курсив мой).
Интеллектуальный анализ (слишком много переменных). Если игнорирование важных переменных представляет собой потенциальную проблему, то, может быть, ее возможным решением будет максимальное наращивание количества объясняющих переменных в уравнении регрессии? Отнюдь! Ваши результаты могут быть поставлены под угрозу, если вы включите в уравнение регрессии чересчур большое число переменных, особенно если речь идет о дополнительных объясняющих переменных без какого-либо теоретического обоснования такого решения. Например, не следует разрабатывать стратегию исследования, построенную на следующей предпосылке: поскольку нам неизвестно, что вызывает аутизм, нужно включить в уравнение регрессии как можно больше потенциальных объясняющих переменных, чтобы увидеть, что именно может оказаться статистически значимым; затем, возможно, мы сумеем получить кое-какие ответы. Если вы включите в уравнение регрессии достаточно большое число лишних переменных, то одна из них, по чистой случайности, обязательно достигнет порога статистической значимости. Еще одна опасность заключается в том, что лишние переменные порой не так-то легко распознать именно как лишние. Опытные исследователи могут всегда обосновать теоретически, постфактум, почему та или иная необычная переменная, которая в действительности совершенно бессмысленна, оказывается статистически значимой[70].