Текст апелляции:
У нас с игровым жюри обнаружилось некоторое недопонимание по поводу определений из математической статистики. Авторский ответ соответствует точечной математической статистике, а наш ответ — интервальной. Заинтересованный читатель может задаться вопросом, как же так выходит, 95% везде одинаковые, а слова почему-то разные; нет ли в этом проблемы? Приведем детальное описание того, что самая стандартная интервальная модель даёт практически те же результаты, что и самая стандартная точечная.
В вопросе не содержится информации о том, что ровно половина чашек была каких-то там типов, соответственно куда более естественной является модель, без дополнительных предположений, в которой леди подают чашки двух типов по очереди и она определяет их тип. Гипотеза заключается в том, что леди угадывает с вероятностью одна вторая (что в точности соответствует нулевой гипотезе). Одна из
самых ранних моделей для работы с подобными биномиальными распределениями появилась в статье
Клоппера и Пирсона [источник 1] (отметим, что это произошло за год до выхода книги Фишера с историей про
леди, что делает невозможным отличить эти методы с какой бы то ни было точки зрения — по крайней
мере Пирсон является британцем и статья также вышла в издательстве оксфордского университета).
Пусть леди угадывает тип чая с вероятностью p. Модель Клоппера–Пирсона позволяет с “95% уверенностью” утверждать, что гипотеза неверна, если соответствующий 95% доверительный интервал не содержит 1/2. Используем формулу с Википедии (en.wikipedia.org/wiki/Binomial_proportion_confidence_interval#Clopper%E2%80%93Pearson_interval).
Очевидно, что уровень уверенности растет с числом угаданных чашек; более того формулы для случая
всех угаданных чашек выписаны на Википедии явно (безо всяких там бета-функций):
CI_α = [ (α/2) ^ (1/n) , 1 ]
где α — единица минус уровень доверия, а CI_α — искомый интервал.
При n = 5 и α = 0.05 (что соответствует 95%) получаем нижнюю границу 0.025^(1/5) = 0.47..., а при n = 6 уже 0.025^(1/6) = 0.54..., что показывает, что пяти чашек еще не хватает для исключения 1/2 из доверительного интервала, а шести уже хватает.
Написанный нами ответ «95% доверительный интервал» упоминается далее в этой же статье Википедии в качестве стандартного значения.
Наконец о том, как сообразить это все за минуту. Дело в том, что сравнение (α/2)^(1/n) c 1/2 соответствует
сравнению α с (1/2)^(n−1). Сравнение с (1/2)^n является интуитивным приближением (в обеих моделях —
точечной и интервальной), а дополнительная 1/2 — уже артефактом модели. Соответственно, на глазок
видно, что для достижения 95% необходимо 5-6 итераций, ну а раз в вопросе говорится, что шесть, то и
ура.
В связи с этим мы хотим сказать, что проникли в суть вопроса и дали ответ, не противоречащий поставленной в тексте вопроса реалиям, и духу вопроса, и просим его зачесть.
Источник:
1. Charles J. Clopper and Egon S. Pearson. The use of confidence or fiducial limits illustrated in the case of the binomial. Biometrika, 26(4):404–413, 1934.