Однажды британка отказалась пить чай, в который было влито молоко. Чтобы разрешить спор, её оппоненты приготовили восемь чашек, в которых был чай с молоком. Достаточно было и шести, ведь уже тогда получилось бы достичь общеупотребимого показателя ЭТОГО. Назовите ЭТО.
Ответ: p‑value [пи‑вэлью]
Зачёт: P-значение, p-уровень значимости, p-критерий
Комментарий: Чтобы провести эксперимент с нулевой гипотезой — «Нельзя отличить, что было налито раньше: молоко в чай или наоборот» — Ро́нальду Фи́шеру хватило бы шести чашек (по три каждого типа). В этом случае вероятность случайного угадывания составляла 0,05 [пять сотых], так как способов выбрать три чашки из шести — ровно двадцать. В современных научных исследованиях в качестве p‑value (уровня значимости) часто используют ту же границу — 0,05. В результате эксперимента Мю́риэл Бри́столь угадала все чашки правильно и посрамила мужиков.
Источники: 1. https://en.wikipedia.org/wiki/Muriel_Bristol#Statistics_and_tea:~:text=Bristol declined it, saying that she preferred the flavour when the milk was poured into the cup before the tea. 2. https://en.wikipedia.org/wiki/Lady_tasting_tea
/ 57 · 40.35%
/ 24 · 25%
Спорные: показать
Апелляции: показать
Вопрос
35
Тип:
на зачёт
Статус:
doneпринята
Ответ команды:
95% доверит. интервал
Текст апелляции:
У нас с игровым жюри обнаружилось некоторое недопонимание по поводу определений из математической статистики. Авторский ответ соответствует точечной математической статистике, а наш ответ — интервальной. Заинтересованный читатель может задаться вопросом, как же так выходит, 95% везде одинаковые, а слова почему-то разные; нет ли в этом проблемы? Приведем детальное описание того, что самая стандартная интервальная модель даёт практически те же результаты, что и самая стандартная точечная. В вопросе не содержится информации о том, что ровно половина чашек была каких-то там типов, соответственно куда более естественной является модель, без дополнительных предположений, в которой леди подают чашки двух типов по очереди и она определяет их тип. Гипотеза заключается в том, что леди угадывает с вероятностью одна вторая (что в точности соответствует нулевой гипотезе). Одна из самых ранних моделей для работы с подобными биномиальными распределениями появилась в статье Клоппера и Пирсона [источник 1] (отметим, что это произошло за год до выхода книги Фишера с историей про леди, что делает невозможным отличить эти методы с какой бы то ни было точки зрения — по крайней мере Пирсон является британцем и статья также вышла в издательстве оксфордского университета). Пусть леди угадывает тип чая с вероятностью p. Модель Клоппера–Пирсона позволяет с “95% уверенностью” утверждать, что гипотеза неверна, если соответствующий 95% доверительный интервал не содержит 1/2. Используем формулу с Википедии (en.wikipedia.org/wiki/Binomial_proportion_confidence_interval#Clopper%E2%80%93Pearson_interval). Очевидно, что уровень уверенности растет с числом угаданных чашек; более того формулы для случая всех угаданных чашек выписаны на Википедии явно (безо всяких там бета-функций): CI_α = [ (α/2) ^ (1/n) , 1 ] где α — единица минус уровень доверия, а CI_α — искомый интервал. При n = 5 и α = 0.05 (что соответствует 95%) получаем нижнюю границу 0.025^(1/5) = 0.47..., а при n = 6 уже 0.025^(1/6) = 0.54..., что показывает, что пяти чашек еще не хватает для исключения 1/2 из доверительного интервала, а шести уже хватает. Написанный нами ответ «95% доверительный интервал» упоминается далее в этой же статье Википедии в качестве стандартного значения. Наконец о том, как сообразить это все за минуту. Дело в том, что сравнение (α/2)^(1/n) c 1/2 соответствует сравнению α с (1/2)^(n−1). Сравнение с (1/2)^n является интуитивным приближением (в обеих моделях — точечной и интервальной), а дополнительная 1/2 — уже артефактом модели. Соответственно, на глазок видно, что для достижения 95% необходимо 5-6 итераций, ну а раз в вопросе говорится, что шесть, то и ура. В связи с этим мы хотим сказать, что проникли в суть вопроса и дали ответ, не противоречащий поставленной в тексте вопроса реалиям, и духу вопроса, и просим его зачесть. Источник: 1. Charles J. Clopper and Egon S. Pearson. The use of confidence or fiducial limits illustrated in the case of the binomial. Biometrika, 26(4):404–413, 1934.
Комментарий АЖ:
АЖ согласилось с доводами апеллянтов. Также был принят спорный «доверительный интервал».