Убийственные большие данные - страница 3
Разумеется, Высоцки посчитала цифры ужасно несправедливыми и захотела узнать, откуда они взялись. «Я не думаю, что кто-либо понимал это», – позже сказала она мне. Как хороший учитель может получить такой ужасный результат? В чем заключалась система подсчета увеличения коэффициента знаний учеников?
Дело оказалось весьма запутанным. Школьный округ пригласил консалтинговую компанию Mathematica Policy Research (MPR) из Принстонского университета, чтобы она помогла разработать критерии оценки. Задачей MPR было оценить прогресс в образовании учеников округа, а затем подсчитать, в какой степени улучшение или ухудшение их результатов зависело от учителей. Задача, конечно, была непростой. Исследователи знали, что на результаты может повлиять множество факторов, от социально-экономической ситуации до специфических индивидуальных нарушений способности к обучению. Алгоритмы MPR должны были учитывать эти факторы, и это было одной из причин, по которой они оказались такими сложными.
И в самом деле, попытки вместить человеческое поведение, деятельность и потенциал в алгоритмы – это непростая работа. Чтобы понять, с чем пришлось столкнуться MPR, представьте себе десятилетнюю девочку, которая живет в бедном квартале на юго-востоке города Вашингтон. В конце учебного года она сдает стандартизированный тест для пятого класса. После этого ее жизнь продолжается. У нее могут появиться семейные или финансовые проблемы. Она может переехать в другой дом или переживать за брата, у которого возникли проблемы с законом. Она может страдать из-за собственного лишнего веса или бояться какого-нибудь школьного хулигана. В любом случае в следующем году она сдает еще один стандартизированный тест, теперь уже предназначенный для шестиклассников.
Если вы сравните результаты двух тестов девочки, количество набранных баллов должно остаться стабильным или, в лучшем случае, увеличиться. Но если она наберет меньше баллов, чем в прошлом году, будет очень просто увидеть разницу между ее результатами и результатами более успешных учеников.
Но насколько эта разница возникла по вине учителя? Сложно сказать, и модели MPR располагают лишь несколькими числами для сравнения. В компаниях Больших данных, таких как Google, напротив, исследователи проводят постоянные тесты и отслеживают тысячи переменных. Они могут изменить шрифт рекламного объявления с синего на красный, испытать каждую версию на десяти миллионах пользователей и отследить, на какую из версий пришлось больше кликов. Они используют этот отклик, чтобы оттачивать свои алгоритмы и их действия. И хотя у меня есть много претензий к Google (до этого мы еще доберемся), нельзя не признать, что такой тип тестирования – это эффективное использование статистики.
Попытка подсчитать, какое воздействие один человек может иметь на другого в течение учебного года, – гораздо более сложная задача. «Есть столько факторов, которые вмешиваются в процесс обучения, что проанализировать их крайне сложно», – говорит Высоцки. Более того, попытка оценить эффективность учителя, проанализировав результаты тестов всего лишь 25 или 30 учеников, статистически несостоятельна и просто смехотворна. Эти числа слишком малы, учитывая потенциальное количество вариантов, в которых «что-то пошло не так». В самом деле, если бы мы анализировали учителей со статистической тщательностью интернет-поисковика, нам пришлось бы привлечь для теста тысячи или даже миллионы случайно выбранных учеников. Специалисты по статистике оперируют большими числами, чтобы сбалансировать исключения и аномалии. (И ОМП, как мы увидим, зачастую наказывает тех, кто оказывается исключением.)
Что не менее важно, статистические системы требуют ответной реакции – чтобы вовремя увидеть, что алгоритмы сбились с курса. Специалисты по статистике используют ошибки, чтобы «натренировать» свои модели и сделать их более интеллектуальными. Если Amazon.com в результате ошибочной корреляции начнет предлагать девочкам-подросткам книги по уходу за лужайками, количество кликов резко снизится – и алгоритм будет оттачиваться, пока заново не настроится. Без обратной связи, однако, статистический механизм может и дальше работать с ошибками и искажать анализ, при этом не обучаясь на этих ошибках.