Книга Голая статистика. Самая интересная книга о самой скучной науке - Чарльз Уилан
Шрифт:
Интервал:
Закладка:
Согласно авторам данного исследования (Марианна Бертран из Booth School of Business, Клаудиа Голдин и Лоуренс Кац из Гарвардского университета), дискриминация не является вероятным объяснением большей доли разрыва в зарплатах. Причем разрыв по половому признаку исчезает, когда авторы добавляют в анализ дополнительные объясняющие переменные. Например, при прохождении программы MBA мужчины посещают дополнительные курсы финансов и на выпускных экзаменах получают в среднем более высокие оценки. Когда эти данные используются в уравнении регрессии в качестве управляющих переменных, необъясненная доля разрыва в уровнях зарплаты мужчин и женщин снижается до 19 %. Когда же в это уравнение включаются переменные, позволяющие учитывать рабочий стаж после окончания университета, необъясненная доля разрыва в уровнях зарплаты мужчин и женщин снижается до 9 %. А когда в уравнение добавляются объясняющие переменные для других характеристик (например, тип работодателя и количество реально отработанных часов), необъясненная доля разрыва в уровнях зарплаты мужчин и женщин снижается до менее 4 %.
Что касается работников, стаж которых превышает десять лет, то авторы исследования могут в конечном счете объяснить все, кроме 1 %-ного разрыва в уровнях зарплаты мужчин и женщин, факторами, не имеющими никакого отношения к дискриминации на работе[62]. Авторы пришли к следующему выводу: «Мы выявили три непосредственные причины существования большого увеличивающегося разрыва в уровнях зарплаты мужчин и женщин: разница в уровнях знаний, полученных в высшем учебном заведении; разница, обусловленная большими перерывами в стаже у женщин; разница в количестве реально отрабатываемых часов в неделю. Эти три детерминанта могут объяснить львиную долю разрыва в уровнях зарплаты мужчин и женщин по окончании ими вуза и после начала трудовой деятельности».
Я надеюсь, что убедил вас в полезности множественного регрессионного анализа, особенно в возможности делать выводы по результатам исследований путем обособления влияния какой-то одной объясняющей переменной и фиксации («контроля») других факторов, способных вносить искажения в выводы. Я еще не предложил вам интуитивно понятного объяснения того, как этот статистический «волшебный эликсир» работает. Когда мы используем регрессионный анализ для оценивания зависимости между образованием и весом человека, ceteris paribus, как применяемый нами статистический пакет контролирует такие факторы, как рост, пол, возраст и доход, когда нам доподлинно известно, что участники исследования Americans’ Changing Lives вовсе не идентичны в других отношениях?
Чтобы уяснить, каким образом можно изолировать влияние на вес какой-либо отдельно взятой переменной, например образования, давайте представим следующую ситуацию. Допустим, что все участники исследования Americans’ Changing Lives собрались в каком-то одном месте, например во Фрамингеме. Теперь предположим, что мы отделили мужчин от женщин, а затем распределили их по росту. В одном помещении собрали всех мужчин, рост которых равняется шести футам; в соседнем – рост которых равняется шести футам и одному дюйму и т. д. для представителей обоих полов. Если в нашем исследовании участвует достаточно много людей, мы можем разбить их на группы по уровню дохода и распределить по разным комнатам. В каждой комнате будут находиться люди, идентичные во всех отношениях, за исключением образования и веса, которые и являются двумя интересующими нас переменными. В результате описанного распределения обязательно окажется комната, где соберутся сорокапятилетние мужчины ростом 5 футов и 5 дюймов, годовой доход которых составляет от 30 000 до 40 000 долларов. В соседней комнате будут находиться сорокапятилетние женщины ростом 5 футов и 5 дюймов и годовым доходом от 30 000 до 40 000 долларов. И так далее.
В каждой комнате все же будет наблюдаться некоторый разброс величин веса: вес людей одного пола и роста, имеющих примерно одинаковый доход, будет разным, хотя, наверное, в этом случае эта разница будет гораздо меньшей, чем в выборке в целом. Сейчас наша цель – увидеть, какую долю остающегося разброса величин веса в каждой комнате можно объяснить уровнем образования. Иными словами, какова «наилучшая» линейная связь между образованием и весом в каждой комнате?
Конечная проблема, однако, заключается в том, что мы не хотели бы использовать разные коэффициенты для каждой комнаты. Весь смысл этого упражнения – рассчитать единственный коэффициент, который бы наилучшим образом отражал связь между образованием и весом для рассматриваемой нами выборки в целом – при неизменности других факторов. Мы хотели бы определить единый коэффициент для образования, который можно было бы использовать в каждой комнате, чтобы минимизировать сумму квадратов разностей для совокупности всех комнат. Какой коэффициент для образования минимизирует квадрат необъясненного веса для каждого человека по всем комнатам? Этот коэффициент становится нашим коэффициентом регрессии, поскольку является наилучшим объяснением линейной зависимости между образованием и весом для данной выборки при неизменности таких факторов, как пол, рост и доход.
Данный пример позволяет понять, почему так полезны большие совокупности данных. Они дают нам возможность контролировать многие факторы, располагая при этом большим количеством наблюдений в каждой «комнате». Очевидно, компьютер может выполнить соответствующие вычисления буквально за доли секунды, не распределяя тысячи людей по разным комнатам.
Завершу главу тем же, с чего начал, – зависимостью между стрессом на работе и развитием сердечно-сосудистых заболеваний. Цель исследований, выполняемых по заказу британского правительства в отношении государственных служащих, заключалась в том, чтобы определить связь между невозможностью человека в достаточной степени контролировать содержание, способы и условия выполнения своей работы и развитием сердечно-сосудистых заболеваний за определенный период времени. В ходе одного из первых исследований, проводившегося на протяжении семи с половиной лет, использовалась выборка из 17 530 государственных служащих{73}. Авторы исследования пришли к следующему заключению: «Служащие (мужчины) низшего ранга, как правило, ниже ростом, полнее, имеют проблемы с артериальным давлением, больше курят и меньше занимаются спортом, чем чиновники более высоких рангов. Даже после внесения поправки, учитывающей влияние на уровень смертности всех этих факторов плюс содержание холестерина в крови, отрицательная закономерность между рангом госслужащего и уровнем смертности от сердечно-сосудистых заболеваний оставалась достаточно сильной». Упоминаемая «поправка» вносится посредством регрессионного анализа[63]. Результаты исследования демонстрируют, что при фиксации остальных факторов здоровья (включая рост, который является надежным показателем здоровья и качества питания в раннем детстве) работа на «низких» должностях может в буквальном смысле вас убить.