Уважаемые читатели, если почитать статьи на АШ, то достаточно часто можно встретить графики корреляции, которым авторы аргументируют свою точку зрения. Например, регулярно появляется график зависимости цен на нефть и успешности экономики СССР.
Я призываю вас критически относиться к таким данным. Наличие корреляции - это просто наличие корреляции между числовыми рядами. Её наличие ничего не объясняет и не подтверждает. Это важно помнить. В качетсве подтверждения своего тезиса я хотел бы предстваить вашему вниманию несколько графиков:
1. Выявляется достоверная корреляция между расходами в США на науку и уровнем самоубийств через повешенье.
2. Существует достоверная корреляция между количеством утонувших в бассеинах людей и премьерами фильмов с Николосом Кейджем
3. Потребление курятины достоверно коррелирует с импортом сырой нефти:
Это только часть странных, но достоверных корреляций, которые пока удалось выявить. С остальными можно ознакомиться вот здесь. Будте критичны!
Комментарии
Всё верно, если А зависит от Б, это еще не значит что Б зависит от А. Вроде всё просто, но не все понимают.
Не так )
Если А и Б зависят от С - это не значит что А зависит от Б или Б зависит от А.
Ближе к жизни, друзья )) :
Если состояние экономики России зависит от цены на нефть, то цена на нефть не зависит от состояния экономики России )
Хуже. Они могут вообще случайно совпадать. Господа британские учёные и академик Фоменко берут тысячи графиков для попарного сравнения. Что-нибудь обязательно да совпадает.
а если не совпадает - данные подгоняются под график.
Или просто придумываются
Шикарно! Больше графиков корреляций!
Там есть совершенно адовые :)
Да, спасибо, я заценил!
То есть цена на нефть никак не сказывалась на экономике СССР? ) Так это о многом говорит в пользу экономики СССР )))
Потребление курятины достоверно коррелирует с импортом сырой нефти
По мне так потребление курятины может запросто коррелировать с ростом импорта нефти. Так как рост импорта обусловлен ростом потребления топлива в животноводстве и, значит, ростом производства тех же курей. Что , в свою очередь вызывает снижение цен на курей и, как следствие, рост их потребления.
Так я не спорю!
Спасибо, очень верно подмечено....
Эээ? Это ведь то, о чем я думаю, правда?
Биржевые аналитики придумали бы красивое название!
Необычные модели Playboy, или про обнаружение выбросов в данных c помощью Scikit-learn
Какое интересно...
Пришло время ломового профита!
Ваша мысль мне нравится, но я все-таки сдерну покров таинственности и раскрою свою
Это какой то тонкий математический юмор?)
Очень тонкий - преподаватель ржет, студентки плачут
Так это, корреляция частный случай. Часто аргументом является отсутствие оной. Для одного праметра это гипербола, а для другого парабала. Или сравниваеться один параметр но в разное время. Например премьеры фильмов с Кейджем в 90 - х и премьеры в 2000-х.
И эта, клин клином вышибаешь. Если ничего не доказывают, зачем тогда через них доказываешь.
И самый главный момент. Ложность модели, доказывают на той же модели которую считают ложной, а не на других заведомо ложных.
Может вы сами будете свои модели доказывать а мы посмотрим?
Во-первых корреляция может говорить о зависимости к третьему неучтённому фактору, а не друг к другу.
Во-вторых размер выборки имеет огромное значение на величину достоверности (н-р для 5-ти точек еще больше подобных графиков можно найти).
Цифры обманчивы, особенно когда я сам ими занимаюсь; по этому поводу справедливо высказывание, приписываемое Дизраэли: «Существует три вида лжи: ложь, наглая ложь и статистика».
Марк Твен, 5 июля 1907 г.
Да, прекрасные наблюдения!
В корреляционном анализе также играет роль объём данных. На графиках выше сравниваются массивы из 11 точек, это весьма мало.
Не, там на сайте есть информация от автора, где он рассказыаает о подходе
Слышал такую байку:
В 50-ых гг. американские статистики подметили закономерность, что заболеваемость раком кишечника коррелирует с наличием у заболевших новоизобретённых и начавших входить в моду refrigerators (то бишь по-нашему, бытовых холодильников). Это долгое время казалось необъяснимым, пока не выяснилось, что первые холодильники приобретались любителями копчёностей для того, что бы сохранять большие объёмы приобретённой и собственной продукции, а в ней из-за незнания и несовершенства технологий копчения оказывались канцерогены (напр, знамените онкогенностью бензипирены).
Т.е., это колбаса была причиной и приобретения холодильника, и провоцирования заболевания, а сам по себе холодильник не являлся злом!
Тем не менее, анализ корреляций полезен, только следует учитывать, так называемую силу корреляции, т.е. правильно оценивать величину коэффициента корреляции. Величина выборки тоже имеет значение, как и закон распределения случайной величины. К сожалению, графики-то нам привели, а вот указать коэф. корр. поленились…
Спасибо, посмеялся.
Наличие корреляции говорит лишь о существовании связи исследуемых величин с некоторой точностью с некоторой доверительной вероятностью. И она почти всегда действительно есть, эта связь. Например, приведенная корреляционная зависимость количества докторов математики с объемом запасов урана легко объясняется через объем финансирования ядерных исследований. Продажи японских автомобилей вполне могут коррелировать с приступами "экономии" при локальных падениях уровня жизни, а падение уровня жизни в определенных условиях коррелирует с числом самоубийств. И т.д., и т.п.
Не надо преувеличивать значение корреляций- они причинно-следственные связи не устанавливают и мозги не заменяют, но не стоит их недооценивать - хороший инструмент.
Добавлю. Из старого.
2. Существует достоверная корреляция между количеством утонувших в бассеинах людей и премьерами фильмов с Николосом Кейджем
Лично мне кажется, что в этом нет ничего забавного и корреляция тут прямая и очевидная.
Пугающая очевидность этого факта заставляет задуматься