Bledso • Как распознать дезинформацию в интернете: метод ученых США и Катара

Техническое: не " алгоритм, названный методом опорных векторов ". Это один из достаточно старых алгоритмов машинного обучения. Просто конкретно в этот раз примененный для классификации текста.

" linguistic indicators of bias " - думаю, это "слова, свидетельствующие о предвзятости", скажем так. Типа если видим слово "nigger", то это предвзятость по отношению к черным.

Более интересно, что исходно тренировочное множество (статьи, проаннотированные как "предвзятые" и "непредвзятые") они брали с сайта https://mediabiasfactcheck.com/ . Взглянул, там Bellingcat среди "минимально предвзятых" и "придерживающихся фактов". Так что с нашей точки зрения, обученный алгоритм тоже будет предвзятым)

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(12 лет 10 месяцев)01:06-6/Окт/18

Большое спасибо за комментарий.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(11 лет 7 месяцев)05:38-6/Окт/18

Типа если видим слово "nigger", то это предвзятость по отношению к черным

Неполжипедя с вами не согласна

https://en.m.wikipedia.org/wiki/Nigaz

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(11 лет 1 неделя)06:27-6/Окт/18

Лет 15 назад весьма востребованы были обучаемые пользователем программы по выявлению спама. Обучать их было прикольно, но не прикольно было когда они в спам засовывали нужные письма. В конечном счёте всё сводилось к тому, что несмотря на обучение приходилось каждый раз лезть в папку с отфильтрованными письмами и проверять вручную. Поэтому такие фильтры не прижились. Так что технически тут никакого ноу хау нет.

Правда здесь шанс ошибиться не так страшен.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(9 лет 11 месяцев)10:08-6/Окт/18

Кто вам сказал что такие фильтры не прижились? Фильтр Байеса один из необходимых фильтров на почтовом сервере. Может вам показалось что они умерли потому что их стало не видно? Так их не видно потому что точность сильно выросла, а обучением занимается администратор а не конечный пользователь.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(12 лет 8 месяцев)19:18-8/Окт/18

если видим слово "nigger", то это предвзятость по отношению к черным

Как насчет highly likely и столь обожаемыми западными смями "преступными/диктоторскими режимами"?

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(13 лет 5 месяцев)01:09-6/Окт/18

Любопытно, как эта система выявит вот такую фейковую новость:

Комментарий администрации:

*** Современная Россия - червяк в навозе (с) ***

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(12 лет 10 месяцев)01:26-6/Окт/18

Если написано "United States" - значит ложь. Как там было в старом анекдоте про Ржевского?

...

- Поручик, помилуйте, но как вы это определяете?!

- Рот есть, значит ###.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(13 лет 5 месяцев)08:59-6/Окт/18

К сожалению, пиндосы очень часто говорят правду. В мелочах, или когда дело не касается их врагов. Так что даже если эту программу обучать правильно, она не посчитает пиндосов паталогическими брехунами.

Комментарий администрации:

*** Современная Россия - червяк в навозе (с) ***

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(13 лет 11 месяцев)17:48-6/Окт/18

алгоритм определения пи.дит ли жид\пендос очень прост:

если (выгода от брехни >0) то брехать;

иначе говорить правду;

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(12 лет 10 месяцев)17:55-6/Окт/18

если (выгода от брехни >0) то брехать;

иначе говорить правду;

Реальность опровергает ваш формальный математический подход.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(12 лет 9 месяцев)01:10-6/Окт/18

Вот так вот запросто признались что у них есть тотальная цензура. Молодцы.

А они ведь действительно тупые. Мало того. Они гордятся своей тупостью. МИТ и Катарский НИИ, Карл! МГУ и мухосранская путяга. Причём это только те глупости, которые попадают в открытый доступ.

У нас есть доказательства, но мы их вам не покажем. (с) Не покажут потому, что там совсем уже наркоманский бред. Даже дурналистам понятно что это бред, а не доказательства.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(9 лет 1 месяц)01:28-6/Окт/18

> Исследования показали: метод опорных векторов (Support Vector Machine) смог правильно вывести высокий, низкий или средний уровень "фейковости" для 65% проверенных данных.

Уровень достоверности - "примерно пятьдесят на пятьдесят". Смешные ребята, но вектор не смешной.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(7 лет 12 месяцев)03:19-6/Окт/18

кмк, большинство лживых новостей содержит некую новую информацию и одновременно вывод с указаниями что надо делать или еще какой посыл. к примеру "биткоины завтра попрут, срочно покупайте". новость же о том что "количество транзакций выросло за неделю на 36,6%" является просто инфой, скорее всего не ложной.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(10 лет 3 месяца)03:29-6/Окт/18

Интересно, а "хайли лайкли" этот алгоритм в какую категорию записывает?

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(11 лет 11 месяцев)11:46-6/Окт/18

"хайли лайкли" это очень точный термин, который у нас, к сожалению, переводится неправильно.
Это не "наиболее вероятно", как у нас принято переводить, а "Наиболее предпочтительно".
Вероятность это оценка объективная, а предпочтительность субъективная.
В этой маленькой разнице и суть вопроса.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(10 лет 3 месяца)12:09-6/Окт/18

То есть достаточно написать "хайли лайкли на западе нет никакой демократии" и эту новость не забанит цензура в западных соцсетях и все западные СМИ ее опубликуют как достоверную?

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(11 лет 11 месяцев)14:02-6/Окт/18

Формально сейчас нет объективных критериев оценки достоверности информации.

Так что можно писать кому угодно и что угодно.
Этим собственно и пользуются крикуны-фейкмейкеры всех мастей.
Но, в ближайшее время, такие критерии обязательно будут разработаны.
Если этого не произойдет, то интернетом, как источником информации, вообще пользоваться будет невозможно.
Даже телевидение, несмотря на все нарекания, куда более достоверный источник информации, чем любой сайт интернета.
Потому как у любого канала телевидения есть имя, есть руководство, и имена этих руководителей известны, есть авторство сообщений от реальных людей, есть декларированные цели публикации.
Только по этим данным легко прикинуть: что это за информация, кто ее подает и зачем.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(7 лет 10 месяцев)22:41-6/Окт/18

Даже телевидение, несмотря на все нарекания, куда более достоверный источник информации, чем любой сайт интернета.
Потому как у любого канала телевидения есть имя, есть руководство, и имена этих руководителей известны, есть авторство сообщений от реальных людей, есть декларированные цели публикации.
Только по этим данным легко прикинуть: что это за информация, кто ее подает и зачем.

Интересно.

Каким образом декларирование целей может служить доказательством? Для начала надо доказать что названы подлинные цели. Но даже если так, декларирующий может ошибаться.

Каким образом знание автора или его начальства может влиять на достоверность информации? Конкретным человеком может транслироваться как информация, так и дезинформация, умышленно или невольно, или сочетание того и другого в разных пропорциях. Есть конечно такое понятие как репутация, но теледеятели у которых она 100% безупречна в меньшинстве. Да и вообще, нет гарантий от изменений.

Интернет дает больше шансов на достоверность благодаря тому что число авторов не ограниченно штатным расписанием. А сравнение информации из разных источников лучший способ проверки.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(11 лет 11 месяцев)01:18-7/Окт/18

Реальная информация троична
Да, нет и может быть. (Шутка)
А на самом деле это Да, Нет и вероятность того что это достоверно.
Если называть поток битов. полученный Вами из интернета информацией, то её достоверность можно оценить только вероятностно.
Это немного трудно понять человеку, который не изучал к примеру современную физику.
В физике действуют три парадоксальных свойства исследуемого объекта.
- Принцип относительности
- Принцип дополнительности
- Принцип неопределенности.

То же работает и при оценке достоверности информации.

вот Вы пишете:

А сравнение информации из разных источников лучший способ проверки.

Догадываетесь почему это не так?
В Вашем утверждении не хватает слова "независимых" в контексте слова "источников"
А вот проверка независимости источников это опять же работа. Если источники зависимы то им грош-цена.

Каким образом декларирование целей может служить доказательством? Для начала надо доказать что названы подлинные цели. Но даже если так, декларирующий может ошибаться.

Вовсе нет. Достаточно знать цели декларации - это не важно подлинные они или ложные.

Каким образом знание автора или его начальства может влиять на достоверность информации? Конкретным человеком может транслироваться как информация, так и дезинформация, умышленно или невольно, или сочетание того и другого в разных пропорциях.

И это не важно - ищи кому выгодно, говорили римляне. А что кто говорит по отдельности неважно.
Важно получить информацию об информации.
Например важно знать от кого автор публикации получает деньги и каковы цели той организации.
Даже этого часто оказывается достаточно.

Я уже как то рассказывал, что наблюдал за опросом свидетелей при одном несложном деле о краже документов. Агата Кристи отдыхает.
В одном отделе, на заводе унесли металлический сейф с документами. Преступники думали что там лежат деньги. Отдел был небольшой 60-70 человек.
Следователи вызывали всех по отдельности и задавали вопросы типа: Где вы были в такой то момент, и кого из сотрудников отдела Вы видели рядом.
Простенькая уловка, но она сработала.
Конечно кто то мог ошибиться, перепутать время или назвать по ошибке кого то лишнего, или забыть назвать кого то. Но на статистике это было неважно.
Группа из трех человек, которых никто не видел в момент ограбления нарисовалась очень точно.
Дальше их расколоть было делом техники.
Так же и с информацией. Любое отдельное высказывание, или информация об авторе, или декларируемые намерения по отдельности малозначимы. Но если Вам удалось загнать их в систему они сразу начинают "рисовать для Вас картину"

Есть и другие методы определения вероятности того, что та или иная информация верна.
Но не бывает 100% й достоверности - бывает оценка вероятности больше или меньше.
Например задачами выделения информации из шума занимается раздел математики, который называется Функциональный анализ.
Все, кто использует сегодня мобильный телефон, "пользуется" несколькими теоремами этого раздела математики.
Есть еще раздел распознавания образов, который позволяет, например, оценить независимость источников.
Словом задача то непростая, но алгоритмически разрешимая. Дело времени да и только.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(7 лет 10 месяцев)11:45-8/Окт/18

В Вашем утверждении не хватает слова "независимых" в контексте слова "источников"

Во-первых, надо знать какие именно могут претендовать на это определение.

Во-вторых, независимость понятие относительное

И это не важно - ищи кому выгодно, говорили римляне. А что кто говорит по отдельности неважно.
Важно получить информацию об информации.

Один из инструментов.

Мне нравится фраза, (возможно цитирую не точно);

"вы думаете о том правду ли вам говорят, а нужно думать о том, зачем вам это говорят".

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(11 лет 11 месяцев)14:54-8/Окт/18

"вы думаете о том правду ли вам говорят, а нужно думать о том, зачем вам это говорят".

Совершенно верно.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

Скрытый комментарий (без обсуждения)

(56 лет 3 недели)04:31-6/Окт/18

Перспективный чат детектед! Сим повелеваю - внести запись в реестр самых обсуждаемых за последние 4 часа.

Лидеры (владелец Повелитель Ботов)

Комментарий администрации:

*** Это легальный, годный бот ***

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(8 лет 1 месяц)05:01-6/Окт/18

Грант похоже попилили, а результата нет. 65% это не результат.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(11 лет 11 месяцев)14:07-6/Окт/18

Сразу скажу.
американским и британским математикам этой задачи не потянуть.
Школа слабовата.
так что попил чистой воды.
Наши конечно могли бы сделать, а может и сделали, но говорить об этом точно не станут.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(12 лет 8 месяцев)14:23-6/Окт/18

Главная новость не в том что тут обсуждают! Главная новость в том что "~~маленький горючий клоп"~~ Катар может науку!

Катар стронгЪ!!!

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(10 лет 6 месяцев)07:10-6/Окт/18

Фсё. Конец русским хакерам, теперь их деятельность будет, как на ладони. )

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(8 лет 2 месяца)07:10-6/Окт/18

что легче выявить лжеца, чем развенчать каждую его ложь.

-- Он врёт!

-- В чём и где?

-- Я не знаю...

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(10 лет 6 месяцев)07:22-6/Окт/18

Поползла стрелка осциллографа по процентам истинности.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(14 лет 3 месяца)09:55-6/Окт/18

Обезьяну посадить, наугад кнопки жать, не более точно будет?

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(12 лет 10 месяцев)10:03-6/Окт/18

Если одну - нет, не будет. Слишком весом фактор случайности - вдруг ей какая-то одна кнопка сильно понравится? А вот если хотя бы несколько десятков, и выбирать среднее решение - тогда да, вполне может сработать. :) Но обезьян надо кормить, а тут запустил программу и получил вывод. Дополнительным бонусом идет отсутствие ответственности за решение - "сбой в программе", никто не виноват.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(12 лет 8 месяцев)14:28-6/Окт/18

Ст.282 декриминализируют, но называть катарцев обезьянами это перебор. Катар стронг! Катар может науку!

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(10 лет 1 неделя)15:25-6/Окт/18

А вот если хотя бы несколько десятков, и выбирать среднее решение - тогда да, вполне может сработать. :)

Запустить генератор случайностей, что выдает Да/Нет. Размножить на N процессов, и брать среднее решение. И кормить никого не надо. Так сказать чат с Аллахом.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(8 лет 10 месяцев)10:57-6/Окт/18

Ну, сей факт имеет место быть. Неадекватное изобилие прилагательных в тексте точно говорит о его «неадекватности». Например, на этом сильно палятся украинские тролли в комментариях. Причем это настолько ярко бросается в глаза... и причиной тому не пропаганда как таковая или технология пропаганды, а неспособность видеть и осознать «писателем» такие яркие маркеры... то ли из-за среды обитания, то ли просто платят за количество слов. Для западных СМИ скорее такими маркерами являются «анонимные источник». Однако, эта метода применима только к узкой тематике. Например яркое описание праздника «Алые паруса» с кучей прилагательных по такой методе можно определить как пропаганду. С другой стороны, пропаганда бывает разной.. пропаганда здорового образа жизни, отказа от алкоголя, ценностей и т.д... Т.е. пропаганда лжи - это плохо, а пропаганда науки - хорошо.

Потому с авторами исследования я скорее согласен... однако, не все так однозначно

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(11 лет 11 месяцев)11:34-6/Окт/18

Методы системного анализа с высокой степенью вероятности позволяют отслеживать "фейковые новости"
Ну или если быть точным определять достоверность той или иной информации.
Эти методы давно применяются в дознавательном и следственном процессах, а так же в процессах связанных с криптографией.
Но применять их к публикациям в средствах массовой информации "народ" пока не спешит.
Думаю, что это дело совсем ближайшего будущего.
Но к этому будут далеко не все готовы.
Хорошим примером развития этого процесса стала историческая наука, в которой буквально случился кризис.
Новые, математические, методы определения достоверности той или иной исторической информации (фактология) сейчас настолько опередили гуманитарную систему трактования исторических процессов, что некоторые исторические концепции вообще перестают существовать.
Грубо говоря - современный историк знает больше чем может объяснить.

Так что современным романтикам, мечтателям, авантюристам - реализующим себя на просторах интернета следует приготовиться.
Думаю ещё лет десять и станет скучно...

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(8 лет 2 недели)14:44-6/Окт/18

Определять правду и фейки очень просто.

То, что нравится - правда.

Всё остальное - фейк.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(14 лет 1 день)14:49-6/Окт/18

ожидаем появления в США-шке и Катаре министервства правды . :)

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(9 лет 6 месяцев)16:31-7/Окт/18

"Обращается внимание на количество и структуру слов, выражающих настроение - еще один признак фейковых новостей."

Может, это и не признак фейковых новостей, но как минимум это признак пропаганды. Чем больше слов-маркеров, тем выше шанс того, что перед тобой пропаганда - нечто, что надо проверять и перепроверять. Обратное, впрочем, ничего не гарантирует.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

Как распознать дезинформацию в интернете: метод ученых США и Катара

Комментарии