Практика показывает, что человек на уровне интуиции очень плохо чувствует вероятности. И антиваксовый срач, во многом, — следствие этой особенности.
Предлагаю вам решить простую задачку. Результат вас, скорее всего, изумит. И в будущем, читая про ПЦР-тесты, вспоминайте эту задачу. Итак,
В городе бушует болезнь. Известно, что вирусом поражено 10% населения.
Для быстрого выявления больных придумали экспресс-тест с очень хорошим результатом — он даёт правильный ответ в 95% тестов. Иными словами, ложноположительных и ложноотрицательных результатов — по 5%.
/// Почему-то это вызвало проблемы. Поясню. Если человек больной, то в 95% тест даст положительный результат, и в 5% — отрицательный. Если человек здоров, то тест даст в 5% положительный результат, и в 95% — отрицательный. Положительный — значит, тест считает, что вирус есть.
Вы прошли тест. Результат — положительный.
1. Какова вероятность того, что вы реально болеете?
2. А если тест оказался отрицательным?
3 и 4. Задача со звёздочкой. Если два подряд теста дали одинаковый результат, какова вероятность болезни?
В идеале хочется получить все 4 результата.
/// Посты совсем не по делу буду удалять. Просто не по делу — свертывать. Ибо нефиг!
/// Ответ в полдень, если никто не соберётся с силами и не посчитает правильно.
Комментарии
Все, кто так увлекается этой задачкой и выводами из неё, почему-то забывают об одном числе из условий...
Всё течёт и меняется. Предположим, что в нашей популяции уже 50% носителей вируса. Как изменятся ваши вероятности?
Никак.
Вопрос сформулирован вполне определённо: "Какова вероятность того, что вы реально болеете?"
Совершенно неважно, сколько при этом болеет других людей.
Очень верное замечание!!!
И вот что интересно...
На практике все ровно наоборот. Правда там между минусами делают перерыв. Что тоже, в свою очередь, логично.
Есть о чем подумать.
Все это верно только при условии случайной выборки, что в реальной жизни совсем не так. Обычно тест делают, если есть серьезный повод - характерные симптомы, контакт с заболевшим и т. п. И вся эта благостная картина рушится.
Почему же. При выезде за границу в аэропорту вас обяжут сделать ПЦР тест, невзирая на наличие или отсутствие симптомов.
Количество положительных ответов:
0.9*0.05 + 0.1*0.95 = 0.14
Из _этих случаев_ реально больных 0.1*0.95 = 0.1*0.95 = 0.095
Если результат теста положительный, то ты болен с вероятностью 0.095/0.14 = 67.9%
Остальное считаем по той же схеме.
👍👍👍
Ответы разобрали чуть выше.
Пусть априорная вероятность инфицировать я коронавирусом для взрослого мужчины, который соблюдает санитарно-эпидемиологические меры грубо 3%, тогда:
На выборке в 10000 таких человек будет 300 инфицированных и 9700 без инфекции.
При чувствительности теста 95% будет 285 истинно положительных результатов, 15 - ложноотрицательных, 9215 - истинно отрицательных , 485 - ложноположительных.
1. Делим истинно положительные результаты на все положительные.
285/(285+485)=0.37 или
37%
2. Делим ложноотрицательные результаты на все отрицательные
15/(15+9215)=0.0016 или
1.6%
При повторном тестировании все той же самой выборки в 10000 человек все тем же тестом будет 271 дваждыистинноположительных результатов, 24 - дваждыложноположительных, 8754 - дваждыистинноотрицательных, 1 - дваждыложноотрицательный.
3. Делим дваждыистинноположительные на все дваждыположительные
271/(271+24)=0.9186 или
91.86%
3. Делим дваждыложноотрицательные результаты на все дваждыотрицательные
1/(1+8754)=0.0001 или
0.01%
Вывод: если бы я сделали тест и он был положительный, я бы пошел и сделал повторный тест. В противном случае, повторное тестирование нет смысла делать - и так понятно, что с большой вероятностью коронавируса во мне нет.
К слову, для каждой группы риска будут свои вероятности, потому что априорная вероятность заразиться у них своя и не зависть от наличия или отсутствия тестов.
Именно такой вывод я и предложил по итогам задачи.
1. 0,5
2. 0,5
3и4 0,5
Увы, нет. Смотрите выше!
Ой ну да ладно... после 4 раза вероятность становится 9,5 и с каждым разом увеличивается до 9.9 - Для МЕНЯ.
т.е. Неважно, сам тест для если для себя. Там другой мотив.
Как-то давным давно... уговаривали меня сделать операцию по коррекции зрения... вероятность 0,005 что лишусь зрения, - отказался, никакой процент не важен.
Если у больного человека (истинное значение) в носу, где берут мазок, нет вируса, то тест может дать ложноотрицательный результат. Один из тех самых случаев с общей вероятностью 5%.
Вот только вне зависимости от количества повторных тестов, в носу вирус не появится ни с какой вероятностью.
И так со 100500 разных причин, что могут дать ошибку. Вплоть до того что один и тот же рукожопый лаборант часто одну и туже операцию не правильно делает.
Ну и еще, в реальности никто не делает перепроверку, и не сообщает точность тестов.
Один из примеров ошибочного использования теории вероятности.
Точность с 95% - это не про рукожопость лаборантов. Это про погрешность правильно сделанной процедуры, исходя из методики ее проведения. То есть когда на исследуемой поверхности точно есть вирус, то эта процедура дает положительный результат в 95% случаев. Аналогично и при отсутствии вируса на исследуемой поверхности (но его наличия или наличия неких останков белков) где-то в воздухе процедурного кабинета или лаборатории мы получим положительный результат примерно в 5% случаев (но эта цифра не постоянная, а "средняя температура по больнице"). Рукожопость лаборантов она вообще сюда не попадает, т.к. среднестатистической рукожопости не существует.
Теперь про наличие вирусов в носоглотке, откуда и берут мазок. Так вот в первые дни после инфицирования на этой самой носоглотке либо вообще не будет вируса, либо его будет так мало, что ПЦР его просто не увидит (с той самой 95% точностью). Что касается завершения болезни, то там может быть два варианта: а) вирус еще в организме есть, но не на слизистых, а потому ПЦР его не увидит. б) вируса уже нет, но его останки еще выводятся через слизистые, тогда ПЦР увидит белок, но это уже не вирус (ПЦР не определяет вирус, он определяет наличие некого белка).
Так, что результат ПЦР сильно зависит от момента взятия мазка. Есть узкий диапазон времени, когда мы будет получать ту самую 95% точность. Во все остальное время погрешность будет зашкаливать.
Не правильное применение теории вероятности в реальности.
То что в теории вероятностно, на деле детерминировано, а "вероятность" возникает из недостатка информации, просто обобщение.
Но если уж очень хочется поиграть в Теорию Вероятности, то в ней есть такая штука, что события должны быть независимы, что в данном примере не соблюдается. Так что никакие слова про "погрешность правильно сделанной процедуры" тут не сработают.
Не всякое обобщение дает вероятность.
Когда говорится о вероятности самого теста (правильно сделанной процедуры), то там теория вероятности применима, т.к. там события независимы (мы говорим про цепочку действий с момента взятия мазка и до озвучивания результата).
А вот рассуждения про вероятность заражения они как раз некорректны.
Немножко углУбим задачу.
Не 10% реально больны, а только 0.1% (1 человек из 1000).
Делаем сплошное поголовное тестирование всего города сначала один раз, потом второй.
Если следовать Вашей логике, то после первого тестирования:
При положительном тесте вероятность реальной болезни 0.001*0.95/(0.001*0.95+0.999*0.05)=0.018 или 1.8%
После второго тестирования:
При положительных двух тестах вероятность реальной болезни 0.001*0.95*0.95/(0.001*0.95*0.95+0.999*0.05*0.05)=0.267 или 26.7%
Но для конкретного индивидуума, не обремененного теорией вероятности два подряд положительных теста имеющих точность в 95% будут с вероятностью 0.9975 или 99.75% означать что он болен.
Не 26%, а 99%....
Итак где ошибка?
Вы все посчитали правильно.
Более того, если весь город здоров, и там нет ни одного больного, тест все равно будет выдавать иногда положительные результаты. И даже двойной тест!!! Но наши формулы в результате дадут правильные 0% и 100%. Попробуйте посчитать!
Именно в этом и проблема. Мы не чувствуем вероятностей…
Тут вопрос скорее не в упомянутой выше в обсуждении теоремы, а в теореме Больших Чисел и ее узком применении к частному случаю индивидуума.
Во первых изначально невозможно точно определить процент заболевших с хоть какой то приемлемой точностью не проведя поголовного тестирования, что в реальной жизни крайне маловероятно. И даже фокус группы не помогут.
По этому если мы хотим узнать точную вероятность реальной болезни тестирование необходимо проводить например при населении Москвы в 12 миллионов как минимум 7 раз на пробах взятых одномоментно.
Или как у нас в хозяйстве еженедельно всего населения на протяжении длительного периода.
Отнюдь! При правильной выборке тестирование даже довольно небольшого числа людей даёт неплохую оценку.
Но это скорее к социологам, как правильно репрезентативные группы для опросов проводить. Они это очень хорошо знают!
Ну дык социология и выросла из трех математических теорий- Теории Больших Чисел, Теории Групп и так называемой Теории Разбитых Окон.
Впрочем а обсуждаемой задаче это отношение уже не имеет.
За. Современная социология и статистика дают неприемлемо большой разброс данных оперативно. Поскольку полное следование канонам слишком затратно материально. И доступно исключительно для специфических исследований под эгидой ...служб.
Зря вы так. При профессиональной работе они очень много чего могут.
Но это к задаче не относится. Я сверну, пожалуй!
Сворачивайте конечно, это к основной теме не относится.
Просто очень часто гоняю своих собственных статистиков и социологов и знаю их требования на РЕАЛЬНЫЕ данные. Именно реальные данные, очищенные от сиюминутного меркантильного интереса всех сторон стоят до неприличия дорого. И для моего бюджета в частности.
Гораздо интересней было бы сравнить вероятность заражения (при тех же 10% и соблюдении правил самоизоляции) с вероятностью получить серьёзные осложнения от прививки (вплоть до летальных).
Предлагайте адекватные величины — давайте оценим.
Ответ 1: 67.8%
ответ 2: 0.6%
ответ 3: 97.6%
ответ 4: 0.03%
👍👍👍
Решение «на пальцах».
Дано:
k = 0,1 – доля заболевших;
p = 0,05 – вероятность ошибки теста.
Решение.
Пусть N – кол-во жителей города, тогда
Nз = N * (1 - k) – кол-во здоровых;
Nб = N * k – кол-во больных.
Если всех жителей протестировать, то все они попадут в одну из четырех групп:
ЗТз (здоров, тест показал «здоров»), кол-во Nз * (1 - p);
ЗТб (здоров, тест показал «болен»), кол-во Nз * p;
БТз (болен, тест показал «здоров»), кол-во Nб * p;
БТб (болен, тест показал «болен»), кол-во Nб * (1 - p).
1) Таким образом, вероятность быть больным при положительном тесте («болен») равна:
P(Б/Тб) = Кол-во БТб / (Кол-во ЗТб + Кол-во БТб) = Nб * (1 - p) / (Nз * p + Nб * (1 - p)) = k * (1 - p) / ((1 - k) * p + k * (1 - p)) = 0,9548
2) Вероятность быть больным при отрицательном тесте («здоров») равна:
P(Б/Тз) = Кол-во БТз / (Кол-во ЗТз + Кол-во БТз) = Nб * p / (Nз * (1 - p) + Nб * p) = k * p / ((1 - k) * (1 - p) + k * p) = 0,0052
Итого.
1) 0,9548
2) 0,0052
3, 4) Для решения задач 3) и 4) требуется время (не успеваю к 12.00).
Логика правильная, напутали в арифметике.
И на том спасибо (проверять сейчас нет возможности).
Вы правы. Пересчитал в Маткаде, результаты сошлись с ответами:
1) 67.9%
2) 0.58%
П.С. Возникли трудности со вставкой листинга (изображение). Ну и ладно.
Заставили голову поломать. Не стал читать чужие решения. Мои расклады тут:
1. Какова вероятность того, что вы реально болеете? 0,6785714286
2. Вы прошли тест. Результат — отрицательный. Какова вероятность того, что вы реально болеете? 0,005813953488
3. Оба теста дали положительный результат 0,9756756757
4. Оба теста дали отрицательный результат 0,0003076923077
если кто вдруг не согласен, готов обсудить :).
Update:
Расчеты следующие: 1. 0,095 / (0,095 + 0,045). То есть, делим вероятность того, что ты болен и тест корректен на сумму вероятностей того что ты болен и тест корректен плюс то что ты не болен и тест не корректен.
2. С точностью до наоборот. 0,005 / (0,855 + 0,005). То есть, делим вероятность того, что Не болен, тест корректен на сумму вероятностей "Не болен, тест корректен" плюс "Болен тест не корректен".
3. Вариант д делим на сумму вариантов г и д
4. Вариант з делим на сумму вариантов а и з.
update2: учитывая результат в 1-м случае, делать 1 тест получается вообще бессмысленно. А вот два - уже да. Если же они отличаются, то вообще жопа.
Все верно.
Но делать один тест смысл есть.
Если он отрицательный — ему можно верить. Если он положительный — тогда надо повторить, это результат ни о чем.
Я уже говорил, что реальные тесты имеют правильность обычно около 90%. При этом положительный тест в условиях задачи даст вероятность заболевания 50% ;)
Все таки не зря у меня теория вероятности была любимым предметом.
да согласен.
Хватит мозги пудрить
Давайте ВАШ, именно ваш правильный ответ. Полдень давно уже пробил
Будем разбирать теперь уже ваши ошибки. Ибо по всем вашим комментариям видно, что и в ответе ошибок будет уйма
Если Вы с моим расчётом не согласны - укажите. Я утверждаю что мой ответ верный. ну или убедите меня в обратном. По-моему все расписано хорошо.
Вы столько из себя изображали мега мозг, а простую арифметическую задачку решить не в состоянии что ли? Тут знаний арифметики за 6-ой класс достаточно. Тем более, когда у меня уже, например, все расписано.
Вы своего добились! В бан!
блин, обидно. Так над ораклом поржать охота...Он ведь продемонстрировал свою глупость :)).
Он уже много раз в этом посте вылазил не по делу. А конкретно тут — все, что не относится к задаче, трется.
Палец устал тыкать в удаление и свертывание!
Он в личке перед вами извинился, говорит, что наезжал не на вас, а на меня.
Таки где решение? По всем четырёх пунктам?
Правильные ответы смотрите у меня и Брекотина выше по тексту :))
Я хочу видеть не правильные ответы, а то решение которое ТС считает правильным.
Потому что можно получить кучу ответов и все они будут в какой-то мере правильными.
Я выделил зеленым ответы и решения, которые считаю правильными.
Смоделировал ситуацию в Excel на случайной выборке в 36 тыс. человек:
Вероятности, рассчитанные по модели, сходятся с вероятностями, рассчитанным по формулам, как и должно быть.
Кому интересно, вот сам Excel: https://www.dropbox.com/s/fjps3alxrvys83q
Можно поиграться с % зараженных и правильностью теста (в блоке "Дано") и посмотреть на изменение результатов.
Эк вас торкнуло!!! :)
1) Тест положительный, он даёт вероятность правильного ответа 95%. Поэтому прошедший тест человек болен с вероятностью 95%.
2) Тест отрицательный, он даёт вероятность неправильного ответа 5%. Поэтому прошедший тест человек болен с вероятностью 5%.
Оба теста показали одинаковый результат:
3) Если оба теста показали положительный результат, то человек болен с вероятностью 1-(1-0,95)*(1-0,95) = 0,9975 (99,75%)
4) Если оба теста показали отрицательный результат, то человек болен с вероятностью (1-0,95)*(1-0,95) = 0,0025 (0,25%).
Не совсем понятно, для чего вводилась цифра 10% зараженных в существующей постановке вопроса "Вы прошли тест" : она имела смысл, если бы была задача типа "найти вероятность обнаружения больных на 100 случайных человек при проведении тестов". В таком раскладе ещё ДО проведения тестов вероятность наткнуться на больного человека составляет 10% сразу, а потом уже идут игры с вероятностью самих тестов.
Да, 10% зараженных влияет на общие результаты тестов, но не на результат одного человека. Если подразумевать, что тестируются случайные люди, то выходит, что из протестированных 10% болеют, а 90% нет.
Среди больных (10%) корректное срабатывание теста будет у 10% * 0,95 = 9,5%.
Среди здоровых (90%) ложноположительное срабатывание теста будет у 90% * 0,05 = 4,5%.
Т.е. ложноположительных результатов всего в ~ 2,1 раза меньше, чем реально положительных.
Ложноположительных так много, потому что большинство здоровы, и это влияет на общую картину.
да, я тоже сразу пошёл по этому пути (с этими 10/90), а потом внимательно обдумал условие...
Самое смешное, что теща отвлекла, пока к ней сходил, размышлял над задачей, и понял, что неправильно начал решать.
Страницы