Как-то раз крокодил Гена, Чебурашка и старуха Шапокляк решили провести онлайн-олимпиаду. Они опубликовали задания на сайте, школьники к определённому сроку загрузили свои решения, и настало время проверять работы. Старуха Шапокляк забеспокоилась:
– Работ так много, а нас всего трое; мы закончим проверку только через месяц. Но наверняка среди школьников есть те, кому не терпится увидеть какие-нибудь результаты, хотя бы предварительные. Идея: пусть они сами всё проверят! Давайте опубликуем все работы, выложим критерии оценивания и разрешим школьникам оценивать друг друга. На основе этих оценок будет формироваться предварительный рейтинг, ну а через месяц мы объявим окончательные, истинные баллы.
– Неплохая идея, – сказал Чебурашка. – Однако проверка работ – общественное благо; нужно дополнительно стимулировать оценщиков, а иначе объём производства этого блага будет меньше общественно оптимального. Но раздавать бонусы нужно не просто за факт проверки, а только если проверка выполнена качественно, и от неё есть толк. Как измерить качество? А очень просто: ведь через месяц будут известны оценки жюри; чем ближе окажется оценка проверяющего к оценке жюри, тем, значит, она качественнее. А толк от выставления данной оценки будет лишь в том случае, если до неё средний балл (среди всех проверявших) данной задачи был хуже (дальше от истины), чем она сама (и, следовательно, чем средний балл с учётом её). Давайте за каждую оцененную задачу давать оценщику вот столько условных баллов:
$|\bar x_{n-1}-x^*|-|x_n-x^*|$
Здесь $x_n$ – n-я по счёту оценка данной задачи (одну и ту же задачу могут оценивать несколько человек), $x_0$ предполагаем равным 0;
$\bar x_n$ – средняя арифметическая из первых n оценок данной задачи, $x^*$ – истинная оценка (оценка жюри). Пусть я – проверяющий. Когда я оцениваю какую-то задачу, мой "счёт" увеличивается на разность двух модулей: первый модуль – насколько средняя оценка до меня далека от истинной; второй модуль – насколько моя оценка далека от истинной. Если моя оценка более точная, мой счёт увеличивается; если менее точная – уменьшается. В конце олимпиады все оценщики будут упорядочены по этому счёту, и победители будут награждены.

Первым отреагировал крокодил Гена:
– Чебурашка, твоя формула кое-что не учитывает. Представь, что передо мной есть две задачи, оцененных неправильно (их текущий средний балл далёк от истины), но одну оценили два человека, а другую – двадцать два. Тогда, если моё время ограничено, и я не успею оценить обе задачи, то разумнее мне взяться за первую, т.к. там моя оценка может довольно сильно изменить средний балл (и тем самым принести пользу для составления предварительного рейтинга), в то время как на средний балл по второй задаче моя оценка практически не повлияет, и я лишь напрасно потрачу время. Если же проверяющие будут награждаться в соответствии с твоей формулой, то в этих двух случаях они получат одинаковое вознаграждение; это создаст неправильные стимулы.
Смотри, как можно модифицировать твою формулу:
$|\bar x_{n-1}-x^*|-|\bar x_n-x^*|$
Это и есть нужный нам показатель – насколько более точным стал средний балл этой задачи после вмешательства данного оценщика. Давайте столько баллов и начислять на его счёт!
– Нет, крокодил, твоя формула ещё хуже, – возразил Чебурашка. – Посмотри, какие стимулы она создаёт: оценщик будет стремиться подогнать средний балл $\bar x_n$ как можно ближе к тому значению, которое он считает истинным, но для этого свою оценку $x_n$ ему нужно будет поставить не на предполагаемом истинном уровне, а значительно выше (или ниже)! Но если каждый в качестве оценки ставит не то, что он считает истинной оценкой, то считать средний балл из поставленных оценок и составлять на его основе предварительный рейтинг уже не имеет смысла, получится какая-то белиберда. Каждый следующий оценщик может считать себя умнее предыдущих, но у нас нет оснований верить этому, и мы хотели бы, чтобы мнения всех оценщиков при подсчёте среднего балла данной задачи учитывались с одинаковым весом.

Наконец вмешалась старуха Шапокляк:
– Мне кажется, я знаю, как нужно правильно модифицировать формулу Чебурашки:
$\frac{|\bar x_{n-1}-x^*|-|x_n-x^*|}{n}$
Если ровно столько баллов мы будет добавлять на счёт оценщика за данную задачу, то получим следующее:
1) если уж он взялся оценивать эту задачу, то в качестве оценки ему будет выгодно поставить ровно ту, которую он считает истинной;
2) если его мнение об истинной оценке соответствует нашему (то есть $x_n=x^*$), то при одинаковых затратах на проверку двух задач он в первую очередь возьмётся за ту, проверка которой даст большее увеличение точности среднего балла (то есть у которой будет больше величина, посчитанная по формуле крокодила Гены).

***
а) убедитесь, что всё написанное выше верно;
б) при чём здесь голубой вагон?

Комментарии

Гриша выиграл конкурс на самую длинную задачу на сайте :)
именно поэтому я ее до сих пор не прочитал :)
А оценщик может оценивать одну и ту же задачу 2 раза? Если "да", то может ли он это сделать подряд?
Думаю, можно оценивать только один раз, ведь "мы хотели бы, чтобы мнения всех оценщиков при подсчёте среднего балла данной задачи учитывались с одинаковым весом".
а) мне кажется, что возражения чебурашки нелогичны. ведь его формула (то есть первая) дает еще больше поводов завышать свою оценку, чтобы получить большее вознаграждение. а формула старухи шапокляк наоборот дает повод занижать оценку, ибо модули делают число в числителе больше знаменателя и награда может получится слишком большой, даже при неверной проверке.
б) голубой вагон... может быть чебурашка и крокодил гена немного неправильные? =)
Ну чтобы ответить на первый вопрос я не прочитал, потом решу, а на б с лёгкостью: первая задача про Чебурашку, Гену, Шапокляк и их спор была про предельные и средние издержки (недавно решал) выпуска голубых вагонов.