Большое количество кухонной аналитики относительно коронавируса, в том числе и на страницах этого сайта, вызывает ,мягко говоря, недоумение. Захотелось почитать что-то более основательное. Например, про модели для прогнозирования развития эпидемий и их применение для текущих данных. Недолгий поиск привел к статье Estimation of COVID-19 prevalence in Italy, Spain, and France (Оценка распространения COVID-19 в Италии, Испании и Франции).
В статье приводится обзор нескольких моделей (10+) и описание одной довольно простой регрессионной модели ARIMA. По утверждениям авторов, подкрепленным ссылками на результаты ее применения, модель хорошо зарекомендовала при моделирование эпидемий. Авторы взяли данные ВОЗ до 15 апреля, загнали в модель, оценили ее точность и выдали прогноз на ближайшие 10 дней.
Сейчас мы можем оценить точность этого прогноза (по тому же источнику данных):
Италия | Испания | Франция | ||||
Прогноз | Факт | Прогноз | Факт | Прогноз | Факт | |
16.апр | 166 | 165 | 176 | 177 | 106 | 105 |
17.апр | 169 | 169 | 179 | 183 | 110 | 108 |
18.апр | 173 | 172 | 182 | 188 | 114 | 108 |
19.апр | 176 | 176 | 185 | 191 | 118 | 111 |
20.апр | 180 | 179 | 189 | 196 | 121 | 111 |
21.апр | 183 | 181 | 192 | 200 | 125 | 114 |
22.апр | 186 | 184 | 195 | 204 | 129 | 116 |
23.апр | 190 | 187 | 208 | 208 | 133 | 118 |
24.апр | 193 | 189 | 201 | 213 | 137 | 120 |
25.апр | 197 | 193 | 205 | 219 | 140 | 121 |
Не буду приводить графики, при желании, играя масштабом, их можно сделать так, чтобы прогноз выглядел очень точным, или так, чтобы прогноз выглядел очень ошибочным.
Все цифры попадают в вилку, нарисованную авторами. Что не удивительно, учитывая, какая это вилка, пример можно увидеть на картинке в тизере.
В заключение, несколько замечаний по результатам рассматриваемой статьи и анализа этих результатов:
- современные модели дают примерно одинаковую точность результатов (имеются в виду модели, предложенные и подтвержденные в научных исследованиях, а не домашнего изготовления);
- исходя только из тех даннных, которые публикуются в ежедневном отчете ВОЗ, большую точность прогноза не получить;
- более того, даже эти данные в различных источниках заметно отличаются (достаточно сравнить их, например, с worldmetr'ом).
Большую точность прогноза можно получить собрав данные по каждой больнице, добавив данные по перевозкам на авиа и жд, данные, по которым яндекс считает самоизоляцию, и др. и натравив на эти данные машинное обучение. Весьма вероятно, что такая работа ведется (в рамках отдельных стран), однако маловероятно, что такие результаты опубликуют в открытом доступе.
Комментарии
Сколько можно спамить ТБМ
по объективным и субъективным параметрам, например обычаям и укладу в обществе, единая моделя будет существенно лагать на конкретных странах, или потребует определенной подгонки.
Согласен с автором, масса кухонных аналитиков которые рисуют таблицу и даже не указывает единицы измерения.
Судя по картинке это подтвержденные выявленные? мыши плакали кололись но продолжали жрать кактус.
Это Total confirmed cases, как и написано слева от графика.
угу со шкалой 10000, авторы модели уверены что эти confirmed cases считаются в Италии, Испании и Франции по идентичной методике с одинаковой погрешностью?
Это данные ВОЗ. Заведомо более достоверных данных не опубликовано. Кроме того, методика подсчета данных для этой модели не так важна, модель прогнозирует данные, которые будут подсчитаны по этой же методике, расхождение этих с данными с реальными цифрами выносится за скобки. Ну и может быть все-таки сначала статью прочитаете, если уж так хочется найти в ней ошибки?
Поэтому я и задал этот вопрос, с достоверными исходниками по заболеванию сейчас явная проблема. 25 листов на английском с формулами и графиками? Постараюсь до 9го мая
На десять дней, да по большой базе! Эко чудо!
Из забавных фактов: если делать прогноз погоды на завтра простым заявлением - завтра будет такая же погода, как сегодня - вероятность правильного прогноза - 75%. Если с моделями на суперкомпьютерах - 80%.
Биржевых роботов нужно на данные натравить. Суть та же - вся информация о развитии эпидемии заключена в цифрах.
Биржевые роботы используют похожие модели, но заточены под другие данные. Не имеет смысла их использовать, когда есть модели, заточенные под эпидемии.