В продолжение темы и названия https://aftershock.news/?q=node/1445834 от камрада Ernst.
В комментариях я пообещал провести анализ данных, если появятся более подробные цифры, и камарад Ernst прислал мне обработанные и разложенные по категориям данные.
Данные.
Данные охватывают все штаты и содержат для каждого штата отдельно: количество голосов за Трампа, количество голосов за Харрис (это числовые данные), кто победил в штате (нечисловая информация). Кроме того, каждый штат описывается важной характеристикой - насколько строго должен легитимироваться каждый избиратель. Существует 3 категории (нечисловая информация):
Удостоверение Личности не требуется (наиболее свободный режим, допускающий многократное голосование)
УЛ без фото (средняя сложность при многократном голосовании)
УЛ с фотографией (наиболее сложный)
Нам не важны данные о том, сколько голосов получили остальные кандидаты, потому что мы изучаем вопрос:
Можем ли мы утверждать, что за Харрис голосовали не по правилам, и поэтому ее результаты - поддельные?
Мы постараемся придерживаться проверок статистических гипотез, основанных только на имеющихся данных, на которых допустимы только очевидные группировки.
Я постараюсь воздержаться от комментариев полученных результатов.
Если неточности и фальсификации существуют, они включены в данные.
Первое и самое простое: в каких штатах победил Трамп, а в каких - Харрис? На помощь приходит следующая таблица:
тип штата |
Trump |
Harris |
итого |
Не требуется УЛ |
2 |
14 |
16 |
УЛ без фото |
6 |
4 |
10 |
УЛ с фото |
23 |
2 |
25 |
итого |
31 |
20 |
51 |
Как видно, здесь наблюдается явный дисбаланс - Харрис побеждает в 14 из 16 штатов, где легче всего голосовать многократно. И наоборот, Трамп побеждает в 23 из 25 штатов, где строгие требования к легитимации делают это наиболее сложным. Счет разделился, когда речь идет о штатах, где достаточно УЛ без фотографии.
Мы можем применить к этим данным тест хи-квадрат на независимость. Нулевая гипотеза гласит: «Результаты кандидатов (победа или поражение) не зависят от того, как голосовавшие легитимируют свое право на избирательном участке».
Здесь я привожу таблицу теоретических значений, которые должны быть получены, если бы независимость действительно существовала:
тип штата |
Trump |
Harris |
итого |
Не требуется УЛ |
9,73 |
6,27 |
16 |
УЛ без фото |
6,08 |
3,92 |
10 |
УЛ с фото |
15,20 |
9,80 |
25 |
итого |
31 |
20 |
51 |
Можно сказать, что действительно штаты, требующие УЛ без фотографии, наиболее близки к теоретическим, то есть для них гипотеза не должна быть отвергнута. Но есть еще 2 группы штатов, и они наиболее многочисленны. Итак... тестовая статистика такова: 10,15. Учитывая количество степеней свободы (2), тест хи-квадрат показывает, что мы можем отвергнуть нулевую гипотезу с риском ошибки 0,0000024109446037678 и принять альтернативную гипотезу - о том, что победа того или иного кандидата зависит от режима легитимации штата.
По этой статистике хи-квадрат коэффициент Крамера, оценивающий силу связи между двумя признаками, равен 0,446. Это не коэффициент корреляции, но мы еще вернемся к измерению корреляции. Нельзя утверждать, что связь очень сильная, но и игнорировать ее тоже нельзя. Однако твердых прогноз не было, а на АШ в целом около 2/3 предсказаний оказались неверными.
В следующей таблице мы видим данные, суммирующие количество голосов, полученных каждым кандидатом:
тип штата |
Trump |
Harris |
итого |
Не требуется УЛ |
25225888 |
33310810 |
58536698 |
УЛ без фото |
8867440 |
8544858 |
17412298 |
УЛ с фото |
42389859 |
31285489 |
73675348 |
итого |
76483187 |
73141157 |
149624344 |
Эти значения показывают, что окончательные (фальсифицированные или нет) результаты близки, что увеличивает неопределенность исхода. Или энтропия, которая составляет почти максимума 1 бит (0,99964). Как в классике - либо я встречусь, либо нет. Или другая классика - борьба была равна, и так далее.
То же самое, если перейти к теоретическим частотам:
тип штата |
Trump |
Harris |
итого |
Не требуется УЛ |
29922091 |
28614607 |
58536698 |
УЛ без фото |
8900611 |
8511687 |
17412298 |
УЛ с фото |
37660485 |
36014863 |
73675348 |
итого |
76483187 |
73141157 |
149624344 |
Здесь тест хи-квадрат дает фантастически низкий риск ошибки при отклонении нулевой гипотезы: всего 0. Но надо иметь в виду, что у теста есть один маленький грешок - когда единиц много, как в нашем случае, он почти всегда отвергает нулевую гипотезу.
Тем не менее, нельзя не заметить, что в «свободных штатах» Трамп теоретически лишился 4696203 голосов. Может быть, дело в том, что в Харрисе их оказалось гораздо больше только потому, что режим легитимации так ослаблен?
Однако в штатах со строгим режимом голосования Трамп набрал на 4729374 голоса больше, чем теоретически. Или сторонники Харрис не смогли обеспечить ей достаточное количество голосов путем повторного голосования...
Все это интересно, но никак не приближает нас к вопросу о существовании корреляции между двумя совершенно не количественными признаками. Сразу скажу для людей непосвященных, что наука пока не придумала такого коэффициента корреляции. Когда мы говорим о корреляции, то обычно имеем в виду конкретно коэффициент Браве (несправедливо называемый коэффициентом Пирсона), который можно вычислить только для чисел.
Но у нас есть обходной путь, и мы им воспользуемся. Во-первых, мы разделим штаты на три разных группы, в зависимости от режима легитимации при голосовании. И воспользуемся инструментарием дисперсионного анализа. Если мы будем работать с подсчетом голосов, то у нас ничего не получится, потому что население и избиратели по штатам сильно отличаются, да и в системе не они главные, а проценты. Поэтому мы возьмем процент голосов, который получил каждый кандидат. Вы можете увидеть их в следующей таблице (это проценты, которые Трамп набрал в разных штатах):
Не требуется УЛ |
УЛ без фото |
УЛ с фото |
39,33% |
44,35% |
42,92% |
6,73% |
42,67% |
48,59% |
38,21% |
42,52% |
60,42% |
45,10% |
47,36% |
62,16% |
46,54% |
57,30% |
65,45% |
35,71% |
52,80% |
65,71% |
37,34% |
56,74% |
56,62% |
47,82% |
68,70% |
51,12% |
47,01% |
61,10% |
68,76% |
47,00% |
71,34% |
59,63% |
44,12% |
58,22% |
|
42,65% |
95,02% |
|
33,61% |
61,19% |
|
40,46% |
50,73% |
|
51,59% |
59,36% |
|
51,05% |
60,29% |
|
51,70% |
||
55,73% |
||
67,47% |
||
59,06% |
||
64,95% |
||
65,06% |
||
57,02% |
||
50,44% |
||
73,48% |
Отметим, что в округе Колумбия Трампа не любят, и ему не стоит туда ехать. Он набрал там всего 6,73 %. А Харрис не нравится в Кентукки. Кто удивится, узнав, что округ Колумбия не требует УЛ, а Кентукки, напротив, требует УЛ с фото?
После всех операций анализа мы получаем F-статистику 17,657 при 2 и 48 степенях свободы. Критическое значение при 1%-ном риске ошибки составляет 5,077, а риск отклонения нулевой гипотезы - 1,78861936434745E-06.
Нулевая гипотеза заключается в том, что три группы штатов представляют собой три разные выборки, различающиеся по своим средним значениям. Простые средние статистически значимо различаются, хотя на первый взгляд они не впечатляют:
Не требуется УЛ |
УЛ без фото |
УЛ с фото |
40,892% |
54,488% |
60,443% |
Речь по-прежнему идет о Трампе.
И тут мы подходим к корреляции. Строго говоря, к эмпирическому корреляционному отношению.
Для тех, кто сталкивается с ним впервые, скажем, что оно является результатом некоторого действия, которое мы предприняли над набором данных, в нашем случае - формирования трех групп штатов по неколичественному признаку. Если группировка была смысленной, то она объяснила в некоторой степени дисперсию исходных данных по сравнению с тем, что было до группировки. Естественно, остается некоторая внутригрупповая дисперсия, не объясненная группировочным признаком. Однако часть общей дисперсии объясняется группировкой (межгрупповая дисперсия), и чем она больше, тем больше коэффициент детерминации, а из него вычисляется эмпирическое корреляционное отношение как квадратный корень из коэффициента детерминации. Эмпирическое корреляционное отношение измеряет степень, в которой данный (неколичественный) признак объясняет вариацию исследуемого признака (% голосов за Трампа по штатам) по группам.
В нашем случае коэффициент детерминации составляет 0,424, а эмпирическое корреляционное отношение = ±0,651, соответственно, что означает умеренно сильную связь. Если говорить конкретно о Трампе, то следует предположить, что связь положительная - чем строже требования к голосованию, тем больший процент голосов он получил. Или, если читатель считает, что за Харрис голосовали с нарушениями, то чем слабее требования, тем больше фальшивых голосов за нее.
Если мы хотим учесть и количество голосов, а не только проценты, чтобы быть еще более справедливыми к данным, мы будем работать со взвешенными значениями. Это дает небольшую разницу в сторону еще более высоких значений. Коэффициент детерминации становится равным 0,456, а эмпирическая корреляция ±0,675.
Результаты для Харрис совпадают зеркальны, поэтому полученные числа справедливы и для нее.
Комментарии
Тут нужно отметить, что корреляция между режимом голосования и результатом кандидата не означает причинно-следственной связи
Корреляция не означает, это так. Но намекает, что то ли есть какая-то общая (скрытая) причина, то ли на самом деле "это - не случайно". Вопрос изначально был в измерении влияния фактора над результатами кандидатов. А вот статистические тесты не позволяют отбросить гипотезу, что есть зависимость между режимом и результатом. Для этого я и начал как раз с тестом независимости и с коэффициентом детерминации. А вот эмпирическое корреляционное отношение - оно собственно и не корреляция в обычном смысле. Оно - более общий (и более непритязательный к данным) измеритель силы связи между неким нечисловым фактором и неким нечисловым результатом. Но я старался не рассказывать об измерителях, кто их знает, тот сразу узнает, а дать результаты из сырых данных. Как раз я этого и пообещал камраду Эрнсту в комментах его статьи, а он проделал работу по набору данных и их систематизацию. Без них ничего не было бы.
Вы сделали хорошую заметку, без которой заметка Эрнста была лишь словами.
По ощущениям при таком количестве штатов любые три группы будут статистически различимы
Да они и различимы, если посмотреть на табличку со средними. Ф-тест как раз это и проверяет и риск чтобы это было случайно - очень низкий.
Как там с коэффициентом Крамера в известной связи численности пиратов и глобального потепления?
Да, связь показывает, что в разных штатах США находятся очень разные избиратели и разная законодательная история. Но это не позволяет прямо оценить сколько голосов незаконно получила Харрис.
На мой взгляд нельзя просто так учитывать результаты, описанные в этой статье, т.к. надо еще принять во внимание, что чем более республиканский штат, тем больше там строгостей с при допуске к голосованию. И наоборот, в демократических штатах, голосуй кто хочет, без всяких документов. Соответственно люди без документов стремятся в демократические штаты и будут голосовать за демократов.
Никто им не мешает проголосовать и за респов и взять деньги и с одних, и с других. Или с тех, кто больше дает. Мы судим о демокрапических и республиканских штатах как раз на основе голосов, а режим штата - историческая история. Как решили так и будет. И если они сменят режим, означает ли это что и симпатии людей сменятся из за этого? А заодно и результаты следующих выборов? Скажем, диктатор Трамп первым своим указом насильно изменит режим - во всех штатах - только по УЛ с фоткой. Значит ли это, что 2028 все штаты будут голосовать за респов?
Вот это хороший, правильный вопрос. Республиканцы хотят-таки (как минимум на уровне деклараций) устроить единые правила для федерального голосования.
Кстати, вот изменения, которые произошли в выборном закнодательстве с 2020 года, жирным я добавил победителя в штате в 2020/24:
Тут даже статистику собирать необязательно, во всех штатах, ужесточивших с 2020 года требования к законодательству, победил Трамп. Но он там и в 2020 победил, кроме Небраски, так что для нашего исследования бесполезно.
Это не позволяет никакая статистика, кроме черной. Имена, суммы, кто сколько раз голосовал на разных участках по велению сердца или кошелька. Увы, мы работаем не той информацией, которой нам бы хотелось, а лишь той, к которой у нас есть доступа. Мы смотрим на круги на поверхности и стараемся понять каких размеров
подлодкарыба плывет в глубинах.А коэффициенты нам не гарантируют что такой связи есть в причинноследственном смысле, они нам показывают, что может существовать опосредствованной связи и это специалистам по пиратам думать надо почему. Например: стали больше нефти танкерами везти для нужда Европы (если потепление, то придется больше энергии затрачивать, летом на охлаждение, зимой на отопление если верны выводы что климат будет более экстремальным). Больше товаров из Китая, в т.ч. и пищевых продуктов (если опять плохо летом с водой и жарой в Европе, придется импортировать). Вот и появилось больше вкусных объектов для пиратов. Там вокруг Маляйзии пиратов вообще никогда не искореняли, а теперь у них больше возможностей и больше целей. А у берегов Африки сам Бог Пиратов велел, если поесть нечего.
Теперь на обвинения России во вмешательство в их выборы можно отвечать: "А вы увеличьте число штатов, где для голосования не требуется удостоверение личности".
В случАе этой гипотезы, надо взять как данность штаты без этой самой легитимизации, ибо там и есть демократия. А вот все остальные пересчитать правильно. На этом разбор закончен.
Поэтому я привел и теоретических значений, которые были бы, если бы была бы независимость. Как видно, в этой самой малочисленной группе штатов эмпирические и теоретические частоты практически равны (округлением до целого числа - точно, но речь о теоретических). Но надо полагать и другое - если требуют УЛ с фоткой, то это ставит самые сложные заборы перед голосовальщикам по нескольких раз. Т.е. есть и другая интерпретация - в этих штатах - самое реалистичное голосование, тк там меньше всего возможностей для фальсификаций. На этапе голосования, конечно, а не на этапе подсчета/вброса.
В общем, читателям делать сами про себя своих выводах, а я объективными и повторяемыми техниками обработал доступных данных, не навязывая своих выводов.
Не не не. Вот смотрите. Я плюнул на пол. Какова вероятность того, что я плюнул ? Она равняется 100 %. А вероятность того, что я не плюнул нулевая. Вы рассматриваете уже произошедшие события, применяя к ним теоретические допущения. А это не совсем верно. Почему я сказал про данность ? Да потому, что цифры уже есть. И если применить к ним теорию, получается, что нашего кандидата жестоко кинули. Или теория не совсем верна.
Это вы знаете, что плюнули, потому что вы плюнули :)
А я смотрю на пол, вижу что кто-то плюнул. Гипотеза: А не плюнул ли Дхарма? Берем анализы слюны с вас и с пола. О! Анализ говорит, что с вероятностью 0,9999 плюнули вы. Значит, гипотезу что плюнули вы мы поддерживаем (не отвергаем) с риском 0,00001, что уже неплохо. Но возможно у вас есть брат-близнец? Возможно, есть скрытый враг/неудовлетворенная девушка, который/которая собрал/а слюны, чтобы вас подставить в глазах АШ?
В статистических исследованиях всегда рассматриваем произошедших, эмпирически наблюдаемых событий. Вот вы плюнули утром в умывальнике и смыли водой. Событие произошло. Но мы его не наблюдаем и не знаем произошло ли оно. Значит, не можем включить его в списке наблюдений. Вот если бы вас снимали на камеру.... впрочем тогда не пришлось бы и вышеуказанного анализа делать, там видно было бы плевали ли вы или нет.
тесты гипотез всегда основываются на некоторой эмпирики и потом - на допущений. Например - я полагаю, что размер стопы у женщин - статистически значимо меньше, чем размер стопы у мужчин. Собираю выборку данных. Кстати, размер уже есть факт, ведь они уже выросли. Замеряю у 100 мужчин и женщин. Пусть часть из них себя идентифицирует как...рыбок, но все равно у них есть ступней. Делаем однофакторный дисперсионный анализ. О! Оказывается, фактор пол объясняет на 90% (число с потолка, но недалеко от истины) разницу в средних и вариаций двух групп. Хоть т-тестом, хоть хи-квадрат тестом, хоть другим работать. Все равно, все покажут одно и то же.
Да, далеко оплоту демократии до Венесуэлы, там проголосовавший окунает палец в чернила, которые смываются через несколько дней. Повтор невозможен.
А еще я читал, что в Венесуеле проголосовавший может отозвать свой голос за данного кандидата. Не знаю, правда на каких выборах, возможно - региональных или городских. Не нравится работа мэра - отзываю свой голос. Наберется критическая масса отозвавших - новые выборы, этот мэр сломался. Что есть гораздо демократичнее, имхо.
А выборы по принципам «северной этики» ещё демократичнее.