Как распознать дезинформацию в интернете: метод ученых США и Катара

Аватар пользователя Bledso

Исследователи из MIT и Катарского НИИ вычислительной техники (QCRI) заявили, что легче выявить лжеца, чем развенчать каждую его ложь. Они создали алгоритм, по особым характеристикам новостных статей выявляющий сайты, публикующие фейковые новости.

Кажется, Кремль больше не сможет безнаказанно дурить голову наивному западному обывателю! Шах и мат.

 

В фэйсбуке, твиттере и других социальных сетях проверка фактов занимает гораздо больше времени, чем удаление дезинформации. Занимающиеся этим редакторы не справляются с потоком жалоб, а кроме того поддельные новости не всегда соответствуют имеющимся шаблонам для проверки.  Борьба с дезинформацией напоминает спасение лодки, которая заполняется водой быстрее, чем ее вычерпывают. Что еще хуже, исследования показали: читателей новостей любых политических убеждений невозможно убедить в фейковости новости, если они способствовали ее распространению, и, тем более, если это распространение поспособствовало упрочнению их положения в выбранной социальной группе.

"Автоматическая проверка фактов неточна, и пользователи ей, как правило, не доверяют. Даже когда это делается авторитетными организациями по проверке фактов, разоблачение малоэффективно для уже поверивших в ложную информацию", - пишут исследователи.

Тезисы их исследования (PDF, 200 Кб) приведены в планируемой Конференции по эмпирическим методам в естественном языке. Они раскрывают ключевые признаки фейковых новостных веб-сайтов, которые с трудом заметны для человека.

Среди используемых приемов специальные шаблоны (так называемые "функциональные слова"), которые придают более разговорный стиль новостной статье. Редакторы честных новостных сайтов быстро и жестко пресекают изобилие функциональных слов, но поддельные новостные сайты могут вообще не редактироваться. Обращается внимание на количество и структуру слов, выражающих настроение - еще один признак фейковых новостей. Также анализируется количество вовлеченных пользователей и их действия. Учитываются термины, свидетельствующие о предвзятости.

Если новостной сайт выкладывает много статей с высокой степенью подобных лингвистических характеристик, можно с уверенностью утверждать, что это сайт фейковых новостей.

Исследования показали: метод опорных векторов (Support Vector Machine) смог правильно вывести высокий, низкий или средний уровень "фейковости" для 65% проверенных данных. Авторы научного прорыва предупреждают, что их алгоритм лучше всего будет работать в "сотрудничестве" с человеком-контроллером.

Следующим шагом будет "идентификация фейковых новостей в неанглоязычных СМИ.  Мы хотим выйти за рамки типичного для западного мира противостояния левые-правые и смоделировать другие виды противостояний, более актуальные для других регионов - например, исламист-атеист".


 

"Оттуда... удивленно и презрительно смотрит на ученых MIT и QCRI".

Начало XXI века. Серия "Шедевры Государственного Эрмитажа". Автор неизвестен.

 

Авторство: 
Авторская работа / переводика

Комментарии

Аватар пользователя mk2
mk2(9 лет 2 недели)

Техническое: не " алгоритм, названный методом опорных векторов ". Это один из достаточно старых алгоритмов машинного обучения. Просто конкретно в этот раз примененный для классификации текста.

" linguistic indicators of bias " - думаю, это "слова, свидетельствующие о предвзятости", скажем так. Типа если видим слово "nigger", то это предвзятость по отношению к черным.

Более интересно, что исходно тренировочное множество (статьи, проаннотированные как "предвзятые" и "непредвзятые") они брали с сайта https://mediabiasfactcheck.com/ . Взглянул, там Bellingcat среди "минимально предвзятых" и "придерживающихся фактов". Так что с нашей точки зрения, обученный алгоритм тоже будет предвзятым)

Аватар пользователя Bledso
Bledso(11 лет 8 месяцев)

Большое спасибо за комментарий.

Аватар пользователя gruzzy
gruzzy(10 лет 5 месяцев)

Типа если видим слово "nigger", то это предвзятость по отношению к черным

Неполжипедя с вами не согласна

https://en.m.wikipedia.org/wiki/Nigaz

Аватар пользователя Сварог
Сварог(9 лет 11 месяцев)

 Лет 15 назад весьма востребованы были обучаемые пользователем программы по выявлению спама. Обучать их было прикольно, но не прикольно было когда они в спам засовывали нужные письма. В конечном счёте всё сводилось к тому, что несмотря на обучение приходилось каждый раз лезть  в папку с отфильтрованными письмами и проверять вручную. Поэтому такие фильтры не прижились. Так что технически тут никакого ноу хау нет.

  Правда здесь шанс ошибиться не так страшен.

 

Аватар пользователя Galogen999
Galogen999(8 лет 9 месяцев)

Кто вам сказал что такие фильтры не прижились? Фильтр Байеса один из необходимых фильтров на почтовом сервере. Может вам показалось что они умерли потому что их стало не видно? Так их не видно потому что точность сильно выросла, а обучением занимается администратор а не конечный пользователь.

Аватар пользователя Victor
Victor(11 лет 7 месяцев)

если видим слово "nigger", то это предвзятость по отношению к черным

Как насчет highly likely и столь обожаемыми западными смями "преступными/диктоторскими режимами"?

 

 

 

Аватар пользователя Кабан
Кабан(12 лет 3 месяца)

Любопытно, как эта система выявит вот такую фейковую новость:

Комментарий администрации:  
*** Современная Россия - червяк в навозе (с) ***
Аватар пользователя Bledso
Bledso(11 лет 8 месяцев)

Если написано "United States" - значит ложь. Как там было в старом анекдоте про Ржевского?

...

- Поручик, помилуйте, но как вы это определяете?!

- Рот есть, значит ###.

Аватар пользователя Кабан
Кабан(12 лет 3 месяца)

К сожалению, пиндосы очень часто говорят правду. В мелочах, или когда дело не касается их врагов. Так что даже если эту программу обучать правильно, она не посчитает пиндосов паталогическими брехунами.

Комментарий администрации:  
*** Современная Россия - червяк в навозе (с) ***
Аватар пользователя robin
robin(12 лет 9 месяцев)

алгоритм определения пи.дит ли жид\пендос очень прост:

если (выгода от брехни >0) то брехать;

иначе говорить правду;

Аватар пользователя Bledso
Bledso(11 лет 8 месяцев)

если (выгода от брехни >0) то брехать;

иначе говорить правду;

Реальность опровергает ваш формальный математический подход.

Аватар пользователя мимобегом
мимобегом(11 лет 7 месяцев)

Вот так вот запросто признались что у них есть тотальная цензура. Молодцы.

А они ведь действительно тупые. Мало того. Они гордятся своей тупостью. МИТ и Катарский НИИ, Карл! МГУ и мухосранская путяга. Причём это только те глупости, которые попадают в открытый доступ.

У нас есть доказательства, но мы их вам не покажем. (с) Не покажут потому, что там совсем уже наркоманский бред. Даже дурналистам понятно что это бред, а не доказательства.

Аватар пользователя tassadar
tassadar(7 лет 11 месяцев)

> Исследования показали: метод опорных векторов (Support Vector Machine) смог правильно вывести высокий, низкий или средний уровень "фейковости" для 65% проверенных данных.

Уровень достоверности - "примерно пятьдесят на пятьдесят". Смешные ребята, но вектор не смешной.

Аватар пользователя Medved075
Medved075(6 лет 10 месяцев)

кмк, большинство лживых новостей содержит некую новую информацию и одновременно вывод с указаниями что надо делать или еще какой посыл. к примеру "биткоины завтра попрут, срочно покупайте". новость же о том что "количество транзакций выросло за неделю на 36,6%" является просто инфой, скорее всего не ложной.

Аватар пользователя mmx
mmx(9 лет 2 месяца)

Интересно, а "хайли лайкли" этот алгоритм в какую категорию записывает? smiley

Аватар пользователя Николай Болховитин

"хайли лайкли" это очень точный термин, который у нас, к сожалению, переводится неправильно.
Это не "наиболее вероятно", как у нас принято переводить, а "Наиболее предпочтительно".
Вероятность это оценка объективная, а предпочтительность субъективная.
В этой маленькой разнице и суть вопроса.

Аватар пользователя mmx
mmx(9 лет 2 месяца)

То есть достаточно написать "хайли лайкли на западе нет никакой демократии" и эту новость не забанит цензура в западных соцсетях и все западные СМИ ее опубликуют как достоверную? smiley

Аватар пользователя Николай Болховитин

Формально сейчас нет объективных критериев оценки достоверности информации.

Так что можно писать кому угодно и что угодно.
Этим собственно и пользуются крикуны-фейкмейкеры всех мастей.
Но, в ближайшее время, такие критерии обязательно будут разработаны.
Если этого не произойдет, то интернетом, как источником информации, вообще пользоваться будет невозможно.
Даже телевидение, несмотря на все нарекания, куда более достоверный источник информации, чем любой сайт интернета.
Потому как у любого канала телевидения есть имя, есть руководство, и имена этих руководителей известны, есть авторство сообщений от реальных людей, есть декларированные цели публикации.
Только по этим данным легко прикинуть:  что это за информация, кто ее подает и зачем.
 

Аватар пользователя не войти
не войти(6 лет 8 месяцев)

Даже телевидение, несмотря на все нарекания, куда более достоверный источник информации, чем любой сайт интернета.
Потому как у любого канала телевидения есть имя, есть руководство, и имена этих руководителей известны, есть авторство сообщений от реальных людей, есть декларированные цели публикации.
Только по этим данным легко прикинуть:  что это за информация, кто ее подает и зачем.

Интересно.

Каким образом декларирование целей может служить доказательством? Для начала надо доказать что названы подлинные цели. Но даже если так, декларирующий может ошибаться.

Каким образом знание автора или его начальства может влиять на достоверность информации? Конкретным человеком может транслироваться как информация, так и дезинформация, умышленно или невольно, или сочетание того и другого в разных пропорциях. Есть конечно такое понятие как репутация, но теледеятели у которых она 100% безупречна в меньшинстве. Да и вообще, нет гарантий от изменений.

 

Интернет дает больше шансов на достоверность благодаря тому что число авторов не ограниченно штатным расписанием. А сравнение информации из разных источников лучший способ проверки. 

Аватар пользователя Николай Болховитин

Реальная информация троичнаlaugh
Да, нет и может быть. (Шутка)
А на самом деле это Да, Нет и вероятность того что это достоверно.
Если называть поток битов. полученный Вами из интернета информацией, то её достоверность можно оценить только вероятностно.
Это немного трудно понять человеку, который не изучал к примеру современную физику.
В физике действуют три парадоксальных свойства исследуемого объекта.
- Принцип относительности
- Принцип дополнительности
- Принцип неопределенности.

То же работает и при оценке достоверности информации.

вот Вы пишете:

А сравнение информации из разных источников лучший способ проверки.

Догадываетесь почему это не так?
В Вашем утверждении не хватает слова "независимых" в контексте слова "источников"
А вот проверка независимости источников это опять же работа. Если источники зависимы то им грош-цена.

Каким образом декларирование целей может служить доказательством? Для начала надо доказать что названы подлинные цели. Но даже если так, декларирующий может ошибаться.

Вовсе нет. Достаточно знать цели декларации - это не важно подлинные они или ложные. 

Каким образом знание автора или его начальства может влиять на достоверность информации? Конкретным человеком может транслироваться как информация, так и дезинформация, умышленно или невольно, или сочетание того и другого в разных пропорциях.

И это не важно - ищи кому выгодно, говорили римляне. А что кто говорит по отдельности неважно.
Важно получить информацию об информации.
Например важно знать от кого автор публикации получает деньги и каковы цели той организации.
Даже этого часто оказывается достаточно.

Я уже как то рассказывал, что наблюдал за опросом свидетелей при одном несложном деле о краже документов. Агата Кристи отдыхает.
В одном отделе, на заводе унесли металлический сейф с документами. Преступники думали что там лежат деньги.  Отдел был небольшой 60-70 человек.
Следователи вызывали всех по отдельности и задавали вопросы типа: Где вы были в такой то момент, и кого из сотрудников отдела Вы видели рядом.
Простенькая уловка, но она сработала.
Конечно кто то мог ошибиться, перепутать время или назвать по ошибке кого то лишнего, или забыть назвать кого то. Но на статистике это было неважно.
Группа из трех человек, которых никто не видел в момент ограбления нарисовалась очень точно.
Дальше их расколоть было делом техники.
Так же и с информацией. Любое отдельное высказывание, или информация об авторе, или декларируемые намерения по отдельности малозначимы. Но если Вам удалось загнать их в систему они сразу начинают "рисовать для Вас картину"

Есть и другие методы определения вероятности того, что та или иная информация верна.
Но не бывает 100% й достоверности - бывает оценка вероятности больше или меньше.
Например задачами выделения информации из шума занимается раздел математики, который называется Функциональный анализ.
Все, кто использует сегодня мобильный телефон, "пользуется" несколькими теоремами этого раздела математики.
Есть еще раздел распознавания образов, который позволяет, например, оценить независимость источников.
Словом задача то непростая, но алгоритмически разрешимая. Дело времени да и только.

Аватар пользователя не войти
не войти(6 лет 8 месяцев)

В Вашем утверждении не хватает слова "независимых" в контексте слова "источников"

Во-первых, надо знать какие именно могут претендовать на это определение.

Во-вторых, независимость понятие относительное laugh

И это не важно - ищи кому выгодно, говорили римляне. А что кто говорит по отдельности неважно.
Важно получить информацию об информации.

Один из инструментов.

Мне нравится фраза, (возможно цитирую не точно);

"вы думаете о том правду ли вам говорят, а нужно думать о том, зачем вам это говорят".

Аватар пользователя Николай Болховитин

"вы думаете о том правду ли вам говорят, а нужно думать о том, зачем вам это говорят".

Совершенно верно. 

Скрытый комментарий Повелитель Ботов (без обсуждения)
Аватар пользователя Повелитель Ботов
Повелитель Ботов(54 года 11 месяцев)

Перспективный чат детектед! Сим повелеваю - внести запись в реестр самых обсуждаемых за последние 4 часа.

Комментарий администрации:  
*** Это легальный, годный бот ***
Аватар пользователя Бабай-сан
Бабай-сан(7 лет 1 неделя)

Грант похоже попилили, а результата нет. 65% это не результат. 

Аватар пользователя Николай Болховитин

Сразу скажу.
американским и британским математикам этой задачи не потянуть.
Школа слабовата.
так что попил чистой воды.
Наши конечно могли бы сделать, а может и сделали, но говорить об этом точно не станут.

Аватар пользователя ПиротехникЪ
ПиротехникЪ(11 лет 7 месяцев)

Главная новость не в том что тут обсуждают! Главная новость в том что "маленький горючий клоп" Катар может науку!

Катар стронгЪ!!!

Аватар пользователя Вячеслав Чешский

Фсё. Конец русским хакерам, теперь их деятельность будет, как на ладони. laugh)

Аватар пользователя Бдыщщ
Бдыщщ(7 лет 1 месяц)

что легче выявить лжеца, чем развенчать каждую его ложь.

-- Он врёт!

-- В чём и где?

-- Я не знаю...

Аватар пользователя Тех Алекс
Тех Алекс(9 лет 5 месяцев)

Поползла стрелка осциллографа по процентам истинности.

Аватар пользователя alexsword
alexsword(13 лет 1 месяц)

Обезьяну посадить, наугад кнопки жать, не более точно будет?

Аватар пользователя Bledso
Bledso(11 лет 8 месяцев)

Если одну - нет, не будет. Слишком весом фактор случайности - вдруг ей какая-то одна кнопка сильно понравится? А вот если хотя бы несколько десятков, и выбирать среднее решение - тогда да, вполне может сработать. :) Но обезьян надо кормить, а тут запустил программу и получил вывод. Дополнительным бонусом идет отсутствие ответственности за решение - "сбой в программе", никто не виноват.

Аватар пользователя ПиротехникЪ
ПиротехникЪ(11 лет 7 месяцев)

Ст.282 декриминализируют, но называть катарцев обезьянами это перебор. Катар стронг! Катар может науку!

Аватар пользователя utx
utx(8 лет 10 месяцев)

А вот если хотя бы несколько десятков, и выбирать среднее решение - тогда да, вполне может сработать. :)

Запустить генератор случайностей, что выдает Да/Нет. Размножить на N процессов, и брать среднее решение. И кормить никого не надо. Так сказать чат с Аллахом.

Аватар пользователя Анатолий Т
Анатолий Т(7 лет 8 месяцев)

Ну, сей факт имеет место быть. Неадекватное изобилие прилагательных в тексте точно говорит о его «неадекватности». Например, на этом сильно палятся украинские тролли в комментариях. Причем это настолько ярко бросается в глаза... и причиной тому не пропаганда как таковая или технология пропаганды, а неспособность видеть и осознать «писателем» такие яркие маркеры... то ли из-за среды обитания, то ли просто платят за количество слов. Для западных СМИ скорее такими маркерами являются «анонимные источник». Однако, эта метода применима только к узкой тематике. Например яркое описание праздника «Алые паруса» с кучей прилагательных по такой методе можно определить как пропаганду. С другой стороны, пропаганда бывает разной.. пропаганда здорового образа жизни, отказа от алкоголя, ценностей и т.д... Т.е. пропаганда лжи - это плохо, а пропаганда науки - хорошо. 

Потому с авторами исследования я скорее согласен... однако, не все так однозначно wink

Аватар пользователя Николай Болховитин

Методы системного анализа с высокой степенью вероятности позволяют отслеживать "фейковые новости"
Ну или если быть точным определять достоверность той или иной информации.
Эти методы давно применяются в дознавательном и следственном процессах, а так же в процессах связанных с криптографией.
Но применять их к публикациям в средствах массовой информации "народ" пока не спешит.
Думаю, что это дело совсем ближайшего будущего.
Но к этому будут далеко не все готовы.
Хорошим примером развития этого процесса стала историческая наука, в которой буквально случился кризис.
Новые, математические, методы определения достоверности той или иной исторической информации (фактология) сейчас настолько опередили гуманитарную систему трактования исторических процессов, что некоторые исторические концепции вообще перестают существовать.
Грубо говоря - современный историк знает больше чем может объяснить.

Так что современным романтикам, мечтателям, авантюристам - реализующим себя на просторах интернета следует приготовиться.
Думаю ещё лет десять и станет скучно...

Аватар пользователя Оригинальный куплетист

Определять правду и фейки очень просто.

То, что нравится - правда.

Всё остальное - фейк.

Аватар пользователя __Alex_loki_
__Alex_loki_(12 лет 10 месяцев)

ожидаем появления в США-шке и Катаре министервства правды . :)

Аватар пользователя asd1m2
asd1m2(8 лет 4 месяца)

"Обращается внимание на количество и структуру слов, выражающих настроение - еще один признак фейковых новостей."

Может, это и не признак фейковых новостей, но как минимум это признак пропаганды. Чем больше слов-маркеров, тем выше шанс того, что перед тобой пропаганда - нечто, что надо проверять и перепроверять. Обратное, впрочем, ничего не гарантирует.