Закон Гудхарта

Скиталец

Команда форума
Гл. Модератор
Проверяющий
Регистрация
Сообщения
118
Реакции
47
Численные показатели эффективности - инструмент надежный. Иван собрал 2 мешка пшеницы, а Василий 4. На первый взгляд очевидно, кто хороший работник. Но дьявол, как всегда, в деталях.

В 2018 журнал Nature изучал продуктивность ученых.
А как вообще такое измерить? Как понять, кто круче - Дарвин или Менделеев? Для этого есть специальная область - называется “наукометрия”. Самый известный показатель в наукометрии - индекс Хирша. Основой для него служат количество статей за авторством ученого и количество цитирований в крутых рецензируемых журналах.
Так вот Nature обнаружил более 9000 человек, которые писали по 72 стати в любой календарный год в течение 16 лет. Это эквивалентно статье каждые пять дней.
Вот это продуктивность!
Есть одна проблема. Крутые исследования могут дать результат за пять дней в виде исключения. В основном же на проведение эксперимента, получение и анализ данных уходит гораздо больше времени.

Почему же ученые строчат статьи чаще, чем делают открытия?
Потому что численные показатели эффективности. Если вы потратите десять лет и создадите синтетическую жизнь в пробирке - вы гений. Но с точки зрения индекса Хирша ваша производительность ниже, чем у занюханного аспиранта. А значит, и ваша зарплата.


Экономист Чарльз Гудхарт 17 лет работал советником председателя Банка Англии.
В одной из статей он сформулировал примерно такое правило:

Как только статистический показатель становится целью, он перестает отражать действительность.

Работает это так.
Изучая область деятельности N, мы замечаем, что точный параметр Х здорово отражает эффективность N. Например, собранные мешки с пшеницей при сборе урожая. Мы делаем параметр Х мерилом работы. Как только Х становится целью, люди учатся читерить, чтобы добиться высоких значений. Иван работает на совесть, а Василий второпях закидывает в мешок что попало, зато Х у него будет выше. Как только люди учатся читерить, параметр перестает выполнять свою функцию. Количество мешков перестало отражать надежность работников.
Именно это случилось со статьями в науке - из инструмента они превратились в цель. И есть масса других примеров:

В крупных компаниях с большой годовой премией отделы могут держать ровный темп за несколько месяцев до годового отчета. И только в последние месяц-два начинают работать в полную силу. На графике получается огромный скачок продуктивности, премия растет.

Работники с почасовой оплатой не слишком расторопны. Ведь лишнее усердие только уменьшит их заработок!

В каждом спорте, где судьи оценивают качество движения, задача из области “демонстрировать точные движения” смещается в область “угадать, какие движения со стороны выглядят точными”. Гимнастика, танцы, фехтование, порой даже ММА страдают от этой игры на судей.

И вспомните бодибилдинг. Изначально атлеты должны были демонстрировать совершенное тело, которое мотивирует заниматься спортом. Но теперешние монстры массы чаще вызывают желание послать за экзорцистом. А все погоня за сантиметрами обхвата.


Отказаться от точных метрик мы не можем. И заменить показатели на более эффективные не получится. Закон Гудхарта шагает по пятам за каждым новым параметром, который мы решим поставить во главу угла.
Что же делать?
Пока остается лишь признать, что автоматизировать оценку не получится. Ведь сам факт появления формального критерия начинает этот критерий разрушать. Анализируя эффективность - свою ли, чужую ли - нужно пользоваться умом, а не только смотреть на цифры.
 
Сверху