В рамках ECLS измерялись результаты учебы школьников и собиралась обычная для опросов информация по каждому участнику: раса, пол, состав семьи, социально-экономическое положение, образовательный уровень родителей и т. д. Однако исследование пошло значительно дальше. В ходе его проводились интервью с родителями школьников (а также учителями и представителями школьной администрации). В интервью им предлагалось дать ответы на значительное количество вопросов, носивших более личный характер, чем вопросы типичного интервью. Вопросы были примерно такими: шлепали ли вы детей, и если да, то как часто; ходите ли вы с детьми в музеи или библиотеки; как часто ваши дети смотрят телевизор.
В результате работы появился невероятно интересный набор данных, способный (при правильной работе с ним) рассказать потрясающие истории.
Для этого используется один из самых любимых инструментов экономистов: регрессионный анализ. Если вам кажется, что регрессионный анализ каким-то образом связан с лечением психиатрических заболеваний, то вы ошибаетесь. На самом деле это мощный (хотя и не всесильный) инструмент, использующий статистические техники для выявления не всегда заметной корреляции.
Корреляция – это всего лишь статистический термин, обозначающий движение двух переменных в одном направлении. Когда на улице идет снег, то чаще всего это сопровождается низкой температурой. В данном случае говорят о положительной, или прямой, корреляции. А отрицательной, или обратной, корреляцией обладают, к примеру, солнечный день и проливной дождь. Все довольно просто – но лишь до тех пор, пока мы работаем с двумя переменными. Когда же нам необходимо проанализировать связи между двумя сотнями переменных, дело представляется куда более сложным. Регрессионный анализ представляет собой инструмент, позволяющий экономистам обрабатывать огромные информационные массивы. В рамках этого метода все переменные (за исключением двух) условно считаются неизменными. Соответственно, мы можем сконцентрироваться на этих двух переменных и определить характер связи между ними.
В условиях идеального мира экономист мог бы провести эксперимент так же, как это делают биологи или физики: сформировать две выборки, проделать по отношению к ним какие-нибудь действия, а затем оценить получившийся результат. Однако у экономистов крайне редко возникает такая роскошная возможность провести чистый эксперимент (вот почему мы считаем эксперимент со школьной жеребьевкой в Чикаго столь редкой удачей). Обычно в распоряжении экономиста имеется набор данных с огромным количеством переменных, иногда связанных между собой, а иногда нет. Экономист вынужден нырять в эту пучину данных для того, чтобы понять, какие из факторов действительно коррелируют между собой.
Что же касается данных ECLS, то задание с применением регрессионного анализа можно изобразить следующим образом: представим себе каждого из 20 тысяч школьников в виде набора электрических переключателей, расположенных на огромной панели. Каждый переключатель отображает ту или иную категорию данных, описывающих школьника: его оценки по математике или чтению в первом и третьем классах, уровень образования его матери, уровень дохода его отца, количество книг в доме, средний уровень достатка в районе его проживания и т. д.
Теперь исследователь может вычленить из этого сложного набора данных те или иные факторы. Он может сопоставить между собой всех детей со сходными характеристиками, то есть одинаково расположенные переключатели, а затем определить, по каким характеристикам они различаются между собой. Таким образом, он может изолировать реальное воздействие одного переключателя на всю приборную панель. Именно таким образом он может выявить степень влияния каждого переключателя.
Давайте предположим, что мы хотим получить с помощью данных ECLS ответ на фундаментальный вопрос о роли родителей и образования: влияет ли количество книг в доме на успеваемость ребенка в школе? Хотя с помощью регрессионного анализа невозможно получить ответ именно на такой вопрос, мы можем ответить на немного другой, а именно – насколько лучше учится школьник, в доме которого много книг. Разница между первым и вторым вопросом олицетворяет разницу между причинно-следственной связью (вопрос 1) и корреляцией (вопрос 2). Регрессионный анализ позволяет определить наличие корреляции, однако не может установить причинно-следственной связи. В целом существует несколько типов корреляции двух переменных. X может быть причиной Y; Y может быть причиной X; возможно также, что причиной возникновения и X и Y служит некий третий фактор. Сама по себе регрессия не может сказать вам о том, идет ли снег из‑за того, что на улице низкая температура, или оба этих события просто происходят одновременно.
Данные ECLS показывают, к примеру, что ребенок, живущий в доме с большим количеством книг, обычно получает более высокие оценки по сравнению с ребенком, в доме которого нет книг. Соответственно, между этими двумя факторами имеется корреляция, и это полезно знать. Однако высокие оценки в школе коррелируют и с множеством других факторов. Если вы будете просто сравнивать две группы детей (различающихся между собой по количеству книг в доме), то такое сравнение не будет иметь особого смысла. Возможно, что количество книг в доме ребенка просто показывает, насколько много денег зарабатывают его родители. На самом деле нам необходимо оценить две группы детей, сходных между собой по всем параметрам (за исключением количества книг в доме), и определить, в какой степени этот единственный фактор влияет на школьные отметки.