Центризбирком РФ обфусцировал статистические данные выборов на своем сайте, вероятно, чтобы затруднить их анализ

Аватар пользователя breduin

Российский ученый Сергей Шпилькин, известный своими исследованиями статистических аномалий в результатах российских выборов, в своем фейсбуке сообщил о том, что на сайте Центризбиркома РФ невозможно скопировать данные со страницы с результатами выборов.

Таблица с данными в браузере отображается корректно, однако при попытке скопировать и вставить текст, либо при чтении исходного кода страницы, вместо чисел в некоторых ячейках виден только случайный набор символов.

Ссылка на страницу с примером: http://www.primorsk.vybory.izbirkom.ru/region/izbirkom?action=show&root=...

Судя по всему, реализовано это генерацией специальных CSS-стилей и специальных шрифтов, причем при каждом обновлении страницы названия стилей и шрифтов разные.

О причинах подобной обфускации пока что ничего неизвестно, однако, как предполагает сам ученый и комментаторы в фейсбуке, сделано это для затруднения автоматизированного анализа результатов выборов независимыми аналитиками.

Upd. Пользователь @jtraub также заметил, что кроме использования сгенерированных шрифтов для подстановки символов, в страницу также вставляются дополнительные скрытые span'ы для затруднения парсинга.

Upd2. @nin-jin предложил изящный 25-строчник на JS, который легко преобразовывает страницу в нормальный текст с помощью html2canvas и tesseract.

Upd3. @strayge предложил решение на Python с улучшенной точностью.

Авторство: 
Копия чужих материалов
Комментарий автора: 

комменты, как обычно, доставляют :-) единичные голоса, что для продакшена это вполне нормальная практика, чтобы скраперы не тормозили сайт, что все крупные порталы, тот же авито, активно ставят препоны для парсеров, что это может быть частью коммерческого решения, остаются неоцененными.
 

alexsword: Рукожоп негодует!

Комментарии

Аватар пользователя breduin
breduin(9 лет 5 месяцев)

вынесу в комментарии примечательный диалог из комментов к статье:

Обфускация стилей это обычное дело и нормальная практика в проде. Не понимаю, какие тут проблемы. Это не помешает парсингу данных при желании
-74
Drag13
19.09.2021 в 18:58

Наверное потому что данные о народном голосвании должны быть публичными?
+73
Survtur
20.09.2021 в 08:38

Вообще-то тут они вполне публичные.
-14
Drag13
20.09.2021 в 09:16

Публичность подразумевает больше чем просто право увидеть.
+12
Survtur
20.09.2021 в 10:42

Граница между "просто увидеть" и "использовать" очень субъективна. И даже если бы они были адекватные для вас, кто-то мог бы пожаловаться, почему они не в JSON? Почему кодировка не UTF8? Почему файлы в архиве? И прочее.

Данные в том кривом виде, что есть сейчас тоже можно использовать. Только порог вхождения заметно выше, потому что нужно подключать скриншотность и распознавание текста. Или лучше вот.
-14
Drag13
20.09.2021 в 10:53

Вы абсолютно правы, граница субъективна. Но проблема определения таких субъективных границ не нова и решения для нее тоже есть. Например есть такой подход как "обосновано (разумно) ожидаемое поведение". Т.е. ожидать что при заходе на сайт данные автоматически загрузятся вам в голову - не обосновано. Ожидать что они будут доступны для чтения - обосновано. Ожидать что вы сможете их скопировать (как это происходит на 99% сайтов, и учитывая общественную важность этих данных) тоже обосновано.

Аватар пользователя Далёкий
Далёкий(9 лет 4 месяца)

Х.з..

Я вроде не великий учёный, и мобильник обычный дешманский.. ( может что данные старые.. но скопировалось по ссылке)

 ____________

Дата голосования:  18.09.2016
Наименование избирательной комиссии УИК №57
 
1 Число избирателей, внесенных в список избирателей на момент окончания голосования 1945
2 Число избирательных бюллетеней, полученных участковой избирательной комиссией 1900
3 Число избирательных бюллетеней, выданных избирателям, проголосовавшим досрочно 0
4 Число избирательных бюллетеней, выданных в помещении для голосования в день голосования 1315
Аватар пользователя breduin
breduin(9 лет 5 месяцев)

дык, там и пишут, что обфускация только в Хроме, а на другие браузеры у кровавого режима денег не хватило :-)

Аватар пользователя Мутный
Мутный(3 года 11 месяцев)

Для типа ученого записать ручками 4 цифры стало намеком на фальсификацию)))

Комментарий администрации:  
*** отключен (дезинформация и набросы) ***
Аватар пользователя mimoshel
mimoshel(4 года 9 месяцев)

PS: Ссылки на сайт с Хабра равносильны средней DDoS-атаке , и известны так называемым "хабр-эффектом".

Иными словами, когда количество переходов пользователей составит, скажем, миллион в секунду - сайт ляжет.

И такого "ученого" можно подозревать в виртуальных диверсиях во время проведения выборов.

Аватар пользователя Далёкий
Далёкий(9 лет 4 месяца)

Зато хоть новое умное  слово узнали от товарища учёного )) 

..( кто из других специальностей родом... я ранее не встречал )

обфусцировал

Аватар пользователя ДК
ДК(12 лет 1 месяц)

вот что скопировалось на самом деле у вас

Число из­би­ра­те­лей, вне­сен­ных в спи­сок из­би­ра­те­лей на мо­мент окон­ча­ния го­ло­со­ва­ния

Аватар пользователя Далёкий
Далёкий(9 лет 4 месяца)

Чудеса да и только... 

На вид вроде нормально выглядит, а   читается каракулями)

Аватар пользователя ДК
ДК(12 лет 1 месяц)

html - hyper text markup language

там много можно придумать спецсимволов и пустых тегов, которые не отображаются браузером

Аватар пользователя Er0p
Er0p(9 лет 7 месяцев)

они вроде не руками копируют, а программой анализируют страницу по шаблону. избирком им шаблон порвал.

Аватар пользователя Далёкий
Далёкий(9 лет 4 месяца)

Прогресс.. карандашом нынче не модно считать в столбик)

Аватар пользователя Руслан Еникеев
Руслан Еникеев(4 года 10 месяцев)

Новой вид доказательств фальсификации - у некого индивида не получается копировать...

Уровень однако пробивает дно.

 

ПС. У меня нормально копируется в эдже (движок там хрома). Или это было с намёком что гугл мешает проводить выборы в РФ?

Аватар пользователя joho
joho(11 лет 1 месяц)

Нет. Возможно, это намёк, что однажды мы вместо цифр увидим капчу.

На мой взгляд, люди, допустившие и реализовавшие такое, должны быть наказаны за искажение опубликованных данных по результатам голосования. Сильно наказаны.

Аватар пользователя stil
stil(11 лет 6 месяцев)

Какой то рукожоп, а не ученый. Не можешь сделать элементарную операцию так хоть не позарился бы выкладывая это. Вроде не старый а уже в маразме.

Аватар пользователя Bledso
Bledso(11 лет 8 месяцев)

Надо узнать у учОного, с какой целью он собирался скопировать данные.

Аватар пользователя breduin
breduin(9 лет 5 месяцев)

дык, не секрет, с целью продемонстрировать, что они сфальсифицированы. Посмотри на награды героя ученого:

 

Награды

    Премия «Политпросвет» фонда «Либеральная миссия» (2012)[5][6].
    Медаль «Защитнику свободных выборов» движения «Голос» (2012)[7][6].
    Премия «Редколлегия» (2016) за статью «Обновленное распределение голосов по явке и скорректированные результаты»[8].

сразу видно - светлый человек.

Аватар пользователя neama
neama(7 лет 4 месяца)

в хроме нормально... или у него какой-то другой тырнЭт...

какой коварный лежим... 

Аватар пользователя Борода Берни

Сложно назвать учёным человека, который постоянно применяет гауссиану для анализа результатов выборов. Область применения распределения Гаусса - выборка случайных величин. При этом голосование - осознанное решение граждан, как и явка на выборы. Впрочем, и рассчитана писанина Шпилькина на людей необразованных.

Аватар пользователя мартын
мартын(5 лет 3 месяца)

дык недообфусцированный он))

Аватар пользователя Борода Берни

Но лет десять уже с этой чушью носится ) Хотя ему неоднократно объясняли. 

Аватар пользователя Справедливость

Так и не понял, где проблема. Пошел на сайт, выбрал Республику Коми, выделил данные в таблице и скопировал в ворд и ексель. Никаких проблем не испытал. Я что-то делаю не так?

Аватар пользователя Пух
Пух(3 года 3 месяца)

Я что-то делаю не так?

Попробуйте перед копированием обругать кровавый режим.

Если не получится, то всё сложнее, и Вам придётся попытаться получить зарубежный грант на защиту свободных выборов.