Хотя экономика представляет собой, по сути, науку, связанную со стимулами, она – к нашему большому счастью – обладает также набором статистических инструментов, позволяющих измерить реакцию людей на эти стимулы. Все, что вам нужно, – это немного данных.
В данном случае руководство системы государственных школ в Чикаго посчитало необходимым установить истину. В его распоряжении находилась база данных ответов на вопросы тестов для каждого ученика государственной школы с третьего по седьмой класс с 1993 по 2000 год. Каждый год тест заполняли около 30 тысяч учеников каждого класса, в базе содержалось более 700 тысяч наборов вопросов и около 100 миллионов индивидуальных ответов. Оцифрованные данные, собранные по классам, включали индивидуальные ответы каждого ученика на вопросы, связанные с чтением и математикой. (Сами бумажные формы ответов в базе отсутствовали; обычно они уничтожались сразу же после тестирования.) Данные включали в себя также информацию о каждом учителе и демографическую информацию о каждом ученике и о результатах его предыдущих и последующих тестов, что могло бы служить основным элементом в процессе выявления учителей-обманщиков.
Теперь настало время создания алгоритма, позволявшего сделать некоторые общие заключения в отношении всей базы данных. Как мог бы выглядеть класс учителя-обманщика?
Первое, на что можно было бы обратить внимание, – это, к примеру, последовательности правильных ответов, в особенности на более сложные вопросы. В случае если на первые пять вопросов теста (обычно самые простые) давали правильные ответы толковые ученики (оценки которых по предыдущим и последующим тестам были столь же высокими), такие идентичные последовательности вряд ли стоило бы считать подозрительными. Однако если на пять последних (самых сложных) вопросов теста давали правильные ответы десять самых слабых учеников, то этот факт заслуживал пристального внимания. Другим «красным флажком» могла бы служить странная тенденция, при которой ученик давал правильные ответы на более сложные вопросы, в то же время пропуская самые простые. В особенности эта тенденция выглядит подозрительной при сравнении результатов отдельного ученика с результатами тысяч учеников других школ, заполнивших аналогичный тест в то же самое время.
Более того, алгоритм должен был выявлять классы, ученики которых показывали куда лучшие результаты, чем ожидалось по итогам предыдущих тестов, а по итогам следующих тестов вновь показывали плохие результаты.
Резкий скачок результата годового теста можно поставить в заслугу хорошему учителю; однако, когда прирост сменяется падением, это означает значительную вероятность того, что скачок возник не по естественным причинам.
Давайте теперь посмотрим на ответы двух групп учеников шестого класса, проходивших один и тот же математический тест. Каждая строка содержит варианты ответов на вопросы, данных одним учеником. Буква a, b, c или d указывает точный ответ; цифра обозначает неправильный ответ – 1 соответствует варианту a, 2 – варианту b и т. д. Ноль означает, что на вопрос не был дан ответ и соответствующее поле осталось пустым. Учитель одного из этих классов почти гарантированно занимается обманом, а наставник другого – скорее всего, нет. Попытайтесь найти отличия в результатах тестов – сразу же хотим вас предупредить о том, что это довольно сложно сделать невооруженным глазом.
Если вы догадались, в каком классе был допущен обман, то поздравляем вас. Давайте посмотрим на последовательности ответов учеников из класса A, перераспределенные с помощью компьютера в другом порядке. Компьютеру была поставлена задача применить сформулированный ранее алгоритм и выявить подозрительные последовательности ответов.
Посмотрите на ответы, выделенные жирным шрифтом. Неужели пятнадцати ученикам из двадцати двух удалось каким-то образом дать самостоятельно шесть последовательных правильных ответов (последовательность d-a-d-b-c-b)?
Есть как минимум четыре причины, по которым это может показаться маловероятным. Первая: вопросы в конце теста были сложнее, чем вопросы в начале. Вторая: эти ученики были в основном отстающими – мало кто из них смог дать шесть правильных ответов подряд в какой-либо другой части теста. Следовательно, кажется еще менее вероятным, что они смогли дать шесть правильных ответов подряд, отвечая на самые сложные вопросы. Третья: вплоть до данного момента между вариантами ответов учеников на вопросы теста отсутствовала какая-либо корреляция. Четвертая: три ученика (под номерами 1, 9 и 12) не дали ответов на вопросы, предшествовавшие подозрительной последовательности, а затем не ответили на ряд последних вопросов теста. Это дает основания предполагать, что длинная и непрерывная последовательность вопросов без ответов была прервана не самим учеником, а его учителем.
В этой последовательности ответов есть еще одна странность: в девяти из пятнадцати тестов шести правильным ответам предшествует еще одна идентичная последовательность, 3-a-1-2, включающая три из четырех неправильных ответов. А во всех пятнадцати тестах после шести правильных ответов следует один и тот же неправильный ответ – 4. К чему бы обманывавшему учителю нужно было стирать ответ ученика и заменять его неправильным ответом?