Исследователи из MIT и Катарского НИИ вычислительной техники (QCRI) заявили, что легче выявить лжеца, чем развенчать каждую его ложь. Они создали алгоритм, по особым характеристикам новостных статей выявляющий сайты, публикующие фейковые новости.
Кажется, Кремль больше не сможет безнаказанно дурить голову наивному западному обывателю! Шах и мат.
В фэйсбуке, твиттере и других социальных сетях проверка фактов занимает гораздо больше времени, чем удаление дезинформации. Занимающиеся этим редакторы не справляются с потоком жалоб, а кроме того поддельные новости не всегда соответствуют имеющимся шаблонам для проверки. Борьба с дезинформацией напоминает спасение лодки, которая заполняется водой быстрее, чем ее вычерпывают. Что еще хуже, исследования показали: читателей новостей любых политических убеждений невозможно убедить в фейковости новости, если они способствовали ее распространению, и, тем более, если это распространение поспособствовало упрочнению их положения в выбранной социальной группе.
"Автоматическая проверка фактов неточна, и пользователи ей, как правило, не доверяют. Даже когда это делается авторитетными организациями по проверке фактов, разоблачение малоэффективно для уже поверивших в ложную информацию", - пишут исследователи.
Тезисы их исследования (PDF, 200 Кб) приведены в планируемой Конференции по эмпирическим методам в естественном языке. Они раскрывают ключевые признаки фейковых новостных веб-сайтов, которые с трудом заметны для человека.
Среди используемых приемов специальные шаблоны (так называемые "функциональные слова"), которые придают более разговорный стиль новостной статье. Редакторы честных новостных сайтов быстро и жестко пресекают изобилие функциональных слов, но поддельные новостные сайты могут вообще не редактироваться. Обращается внимание на количество и структуру слов, выражающих настроение - еще один признак фейковых новостей. Также анализируется количество вовлеченных пользователей и их действия. Учитываются термины, свидетельствующие о предвзятости.
Если новостной сайт выкладывает много статей с высокой степенью подобных лингвистических характеристик, можно с уверенностью утверждать, что это сайт фейковых новостей.
Исследования показали: метод опорных векторов (Support Vector Machine) смог правильно вывести высокий, низкий или средний уровень "фейковости" для 65% проверенных данных. Авторы научного прорыва предупреждают, что их алгоритм лучше всего будет работать в "сотрудничестве" с человеком-контроллером.
Следующим шагом будет "идентификация фейковых новостей в неанглоязычных СМИ. Мы хотим выйти за рамки типичного для западного мира противостояния левые-правые и смоделировать другие виды противостояний, более актуальные для других регионов - например, исламист-атеист".
"Оттуда... удивленно и презрительно смотрит на ученых MIT и QCRI".
Начало XXI века. Серия "Шедевры Государственного Эрмитажа". Автор неизвестен.
Комментарии
Техническое: не " алгоритм, названный методом опорных векторов ". Это один из достаточно старых алгоритмов машинного обучения. Просто конкретно в этот раз примененный для классификации текста.
" linguistic indicators of bias " - думаю, это "слова, свидетельствующие о предвзятости", скажем так. Типа если видим слово "nigger", то это предвзятость по отношению к черным.
Более интересно, что исходно тренировочное множество (статьи, проаннотированные как "предвзятые" и "непредвзятые") они брали с сайта https://mediabiasfactcheck.com/ . Взглянул, там Bellingcat среди "минимально предвзятых" и "придерживающихся фактов". Так что с нашей точки зрения, обученный алгоритм тоже будет предвзятым)
Большое спасибо за комментарий.
Неполжипедя с вами не согласна
https://en.m.wikipedia.org/wiki/Nigaz
Лет 15 назад весьма востребованы были обучаемые пользователем программы по выявлению спама. Обучать их было прикольно, но не прикольно было когда они в спам засовывали нужные письма. В конечном счёте всё сводилось к тому, что несмотря на обучение приходилось каждый раз лезть в папку с отфильтрованными письмами и проверять вручную. Поэтому такие фильтры не прижились. Так что технически тут никакого ноу хау нет.
Правда здесь шанс ошибиться не так страшен.
Кто вам сказал что такие фильтры не прижились? Фильтр Байеса один из необходимых фильтров на почтовом сервере. Может вам показалось что они умерли потому что их стало не видно? Так их не видно потому что точность сильно выросла, а обучением занимается администратор а не конечный пользователь.
Как насчет highly likely и столь обожаемыми западными смями "преступными/диктоторскими режимами"?
Любопытно, как эта система выявит вот такую фейковую новость:
Если написано "United States" - значит ложь. Как там было в старом анекдоте про Ржевского?
К сожалению, пиндосы очень часто говорят правду. В мелочах, или когда дело не касается их врагов. Так что даже если эту программу обучать правильно, она не посчитает пиндосов паталогическими брехунами.
алгоритм определения пи.дит ли жид\пендос очень прост:
если (выгода от брехни >0) то брехать;
иначе говорить правду;
если (выгода от брехни >0) то брехать;
иначе говорить правду;
Реальность опровергает ваш формальный математический подход.
Вот так вот запросто признались что у них есть тотальная цензура. Молодцы.
А они ведь действительно тупые. Мало того. Они гордятся своей тупостью. МИТ и Катарский НИИ, Карл! МГУ и мухосранская путяга. Причём это только те глупости, которые попадают в открытый доступ.
У нас есть доказательства, но мы их вам не покажем. (с) Не покажут потому, что там совсем уже наркоманский бред. Даже дурналистам понятно что это бред, а не доказательства.
> Исследования показали: метод опорных векторов (Support Vector Machine) смог правильно вывести высокий, низкий или средний уровень "фейковости" для 65% проверенных данных.
Уровень достоверности - "примерно пятьдесят на пятьдесят". Смешные ребята, но вектор не смешной.
кмк, большинство лживых новостей содержит некую новую информацию и одновременно вывод с указаниями что надо делать или еще какой посыл. к примеру "биткоины завтра попрут, срочно покупайте". новость же о том что "количество транзакций выросло за неделю на 36,6%" является просто инфой, скорее всего не ложной.
Интересно, а "хайли лайкли" этот алгоритм в какую категорию записывает?
"хайли лайкли" это очень точный термин, который у нас, к сожалению, переводится неправильно.
Это не "наиболее вероятно", как у нас принято переводить, а "Наиболее предпочтительно".
Вероятность это оценка объективная, а предпочтительность субъективная.
В этой маленькой разнице и суть вопроса.
То есть достаточно написать "хайли лайкли на западе нет никакой демократии" и эту новость не забанит цензура в западных соцсетях и все западные СМИ ее опубликуют как достоверную?
Формально сейчас нет объективных критериев оценки достоверности информации.
Так что можно писать кому угодно и что угодно.
Этим собственно и пользуются крикуны-фейкмейкеры всех мастей.
Но, в ближайшее время, такие критерии обязательно будут разработаны.
Если этого не произойдет, то интернетом, как источником информации, вообще пользоваться будет невозможно.
Даже телевидение, несмотря на все нарекания, куда более достоверный источник информации, чем любой сайт интернета.
Потому как у любого канала телевидения есть имя, есть руководство, и имена этих руководителей известны, есть авторство сообщений от реальных людей, есть декларированные цели публикации.
Только по этим данным легко прикинуть: что это за информация, кто ее подает и зачем.
Интересно.
Каким образом декларирование целей может служить доказательством? Для начала надо доказать что названы подлинные цели. Но даже если так, декларирующий может ошибаться.
Каким образом знание автора или его начальства может влиять на достоверность информации? Конкретным человеком может транслироваться как информация, так и дезинформация, умышленно или невольно, или сочетание того и другого в разных пропорциях. Есть конечно такое понятие как репутация, но теледеятели у которых она 100% безупречна в меньшинстве. Да и вообще, нет гарантий от изменений.
Интернет дает больше шансов на достоверность благодаря тому что число авторов не ограниченно штатным расписанием. А сравнение информации из разных источников лучший способ проверки.
Реальная информация троична
Да, нет и может быть. (Шутка)
А на самом деле это Да, Нет и вероятность того что это достоверно.
Если называть поток битов. полученный Вами из интернета информацией, то её достоверность можно оценить только вероятностно.
Это немного трудно понять человеку, который не изучал к примеру современную физику.
В физике действуют три парадоксальных свойства исследуемого объекта.
- Принцип относительности
- Принцип дополнительности
- Принцип неопределенности.
То же работает и при оценке достоверности информации.
вот Вы пишете:
Догадываетесь почему это не так?
В Вашем утверждении не хватает слова "независимых" в контексте слова "источников"
А вот проверка независимости источников это опять же работа. Если источники зависимы то им грош-цена.
Вовсе нет. Достаточно знать цели декларации - это не важно подлинные они или ложные.
И это не важно - ищи кому выгодно, говорили римляне. А что кто говорит по отдельности неважно.
Важно получить информацию об информации.
Например важно знать от кого автор публикации получает деньги и каковы цели той организации.
Даже этого часто оказывается достаточно.
Я уже как то рассказывал, что наблюдал за опросом свидетелей при одном несложном деле о краже документов. Агата Кристи отдыхает.
В одном отделе, на заводе унесли металлический сейф с документами. Преступники думали что там лежат деньги. Отдел был небольшой 60-70 человек.
Следователи вызывали всех по отдельности и задавали вопросы типа: Где вы были в такой то момент, и кого из сотрудников отдела Вы видели рядом.
Простенькая уловка, но она сработала.
Конечно кто то мог ошибиться, перепутать время или назвать по ошибке кого то лишнего, или забыть назвать кого то. Но на статистике это было неважно.
Группа из трех человек, которых никто не видел в момент ограбления нарисовалась очень точно.
Дальше их расколоть было делом техники.
Так же и с информацией. Любое отдельное высказывание, или информация об авторе, или декларируемые намерения по отдельности малозначимы. Но если Вам удалось загнать их в систему они сразу начинают "рисовать для Вас картину"
Есть и другие методы определения вероятности того, что та или иная информация верна.
Но не бывает 100% й достоверности - бывает оценка вероятности больше или меньше.
Например задачами выделения информации из шума занимается раздел математики, который называется Функциональный анализ.
Все, кто использует сегодня мобильный телефон, "пользуется" несколькими теоремами этого раздела математики.
Есть еще раздел распознавания образов, который позволяет, например, оценить независимость источников.
Словом задача то непростая, но алгоритмически разрешимая. Дело времени да и только.
Во-первых, надо знать какие именно могут претендовать на это определение.
Во-вторых, независимость понятие относительное
Один из инструментов.
Мне нравится фраза, (возможно цитирую не точно);
"вы думаете о том правду ли вам говорят, а нужно думать о том, зачем вам это говорят".
Совершенно верно.
Перспективный чат детектед! Сим повелеваю - внести запись в реестр самых обсуждаемых за последние 4 часа.
Грант похоже попилили, а результата нет. 65% это не результат.
Сразу скажу.
американским и британским математикам этой задачи не потянуть.
Школа слабовата.
так что попил чистой воды.
Наши конечно могли бы сделать, а может и сделали, но говорить об этом точно не станут.
Главная новость не в том что тут обсуждают! Главная новость в том что "
маленький горючий клоп"Катар может науку!Катар стронгЪ!!!
Фсё. Конец русским хакерам, теперь их деятельность будет, как на ладони. )
-- Он врёт!
-- В чём и где?
-- Я не знаю...
Поползла стрелка осциллографа по процентам истинности.
Обезьяну посадить, наугад кнопки жать, не более точно будет?
Если одну - нет, не будет. Слишком весом фактор случайности - вдруг ей какая-то одна кнопка сильно понравится? А вот если хотя бы несколько десятков, и выбирать среднее решение - тогда да, вполне может сработать. :) Но обезьян надо кормить, а тут запустил программу и получил вывод. Дополнительным бонусом идет отсутствие ответственности за решение - "сбой в программе", никто не виноват.
Ст.282 декриминализируют, но называть катарцев обезьянами это перебор. Катар стронг! Катар может науку!
Запустить генератор случайностей, что выдает Да/Нет. Размножить на N процессов, и брать среднее решение. И кормить никого не надо. Так сказать чат с Аллахом.
Ну, сей факт имеет место быть. Неадекватное изобилие прилагательных в тексте точно говорит о его «неадекватности». Например, на этом сильно палятся украинские тролли в комментариях. Причем это настолько ярко бросается в глаза... и причиной тому не пропаганда как таковая или технология пропаганды, а неспособность видеть и осознать «писателем» такие яркие маркеры... то ли из-за среды обитания, то ли просто платят за количество слов. Для западных СМИ скорее такими маркерами являются «анонимные источник». Однако, эта метода применима только к узкой тематике. Например яркое описание праздника «Алые паруса» с кучей прилагательных по такой методе можно определить как пропаганду. С другой стороны, пропаганда бывает разной.. пропаганда здорового образа жизни, отказа от алкоголя, ценностей и т.д... Т.е. пропаганда лжи - это плохо, а пропаганда науки - хорошо.
Потому с авторами исследования я скорее согласен... однако, не все так однозначно
Методы системного анализа с высокой степенью вероятности позволяют отслеживать "фейковые новости"
Ну или если быть точным определять достоверность той или иной информации.
Эти методы давно применяются в дознавательном и следственном процессах, а так же в процессах связанных с криптографией.
Но применять их к публикациям в средствах массовой информации "народ" пока не спешит.
Думаю, что это дело совсем ближайшего будущего.
Но к этому будут далеко не все готовы.
Хорошим примером развития этого процесса стала историческая наука, в которой буквально случился кризис.
Новые, математические, методы определения достоверности той или иной исторической информации (фактология) сейчас настолько опередили гуманитарную систему трактования исторических процессов, что некоторые исторические концепции вообще перестают существовать.
Грубо говоря - современный историк знает больше чем может объяснить.
Так что современным романтикам, мечтателям, авантюристам - реализующим себя на просторах интернета следует приготовиться.
Думаю ещё лет десять и станет скучно...
Определять правду и фейки очень просто.
То, что нравится - правда.
Всё остальное - фейк.
ожидаем появления в США-шке и Катаре министервства правды . :)
"Обращается внимание на количество и структуру слов, выражающих настроение - еще один признак фейковых новостей."
Может, это и не признак фейковых новостей, но как минимум это признак пропаганды. Чем больше слов-маркеров, тем выше шанс того, что перед тобой пропаганда - нечто, что надо проверять и перепроверять. Обратное, впрочем, ничего не гарантирует.