Роскомнадзор тестирует систему автопоиска мата

Аватар пользователя Alexn.Klimov

Роскомнадзор приступил к испытаниям в тестовом режиме системы, которая будет осуществлять мониторинг онлайн-изданий в автоматическом режиме. Заработать в полную силу она должна не позднее четвертого квартала текущего года. Об этом российским интернет-СМИ сообщил Вадим Ампелонский, официальный представитель ведомства.

Основной задачей системы станет поиск нецензурной брани в самих статьях и комментариях к ним. Отметим, что на данный момент специалистам ведомства приходится выполнять эту работу в ручном режиме.

Вадим Ампелонский отметил, что сейчас новая программа находится в стадии активной доработки, но к концу года она уже начнет функционировать. Специалисты Роскомнадзора уже готовят для нее список, в который войдут ключевые слова. Причем вначале программа будет работать только с текстами и изображениями. Однако не исключено, что через какое-то время ее возможности будут расширены, и она сможет работать также с аудио и видео. Суммарная стоимость создания новой системы оценивается в 25 миллионов рублей.

Кстати, что это уже не первая попытка ведомства создать подобную систему. В апреле 2011 года Роскомнадзором был объявлен конкурс на создание системы, которая займется поиском на сайтах материалов, содержащих пропаганду порнографии, наркотиков и экстремизма. Тогда конкурс выиграла компания "ДатаЦентр". К концу 2011 года она уже представила готовый продукт, но он не устроил ведомство, а саму компанию в судебном порядке обязали вернуть Роскомнадзору полученные на разработку средства.

 http://www.oreanda.ru/culture/Roskomnadzor_testiruet_sistemu_avtopoiska_mata/article820622/

PS: Были уже неплохие предложения заменить все эмоциональные выражения сокращениями на ТБМ или ИПМ. Эмоции вроде как останутся но рамках приличий

Комментарии

Аватар пользователя PersonaNonGrata
PersonaNonGrata(10 лет 1 месяц)

Анриал ... Тот, кто захочет - найдет способ воткнуть матерное слово. Например используя п р о б е л ы или п_о_д_ч_е_р_к_и_в_а_н_и_я или т.о.ч.к.и ... О.д.н.у или д..в..е ... В общем вариантов  до посинения ...

Аватар пользователя alexsword
alexsword(12 лет 6 месяцев)

Я не знаю как на других ресурсах, а мы дурачиться не собираемся, и всегда когда здравым смыслом понятно, о каких словах речь - будем блокировать / сносить хулиганов. 

Аватар пользователя Aijy01
Aijy01(11 лет 7 месяцев)

Поддерживаю, правила должны быть общие для всех!

Аватар пользователя Alexn.Klimov
Alexn.Klimov(10 лет 11 месяцев)

Полностью поддерживаю. Когда доходит до мата то это значит что против оппонента у тебя никаких других аргументов нет.

Аватар пользователя PersonaNonGrata
PersonaNonGrata(10 лет 1 месяц)

А я против ??? Есть правила общежития - соблюдаем их. Но речь то идет не о вашем ресурсе, а о программе автопоиска мата.

Я просто указал, что можно обмануть программу автопоиска мата. Нет, ну можно накрутить 100500 проверок и сверяться по каждому отдельно взятому слову со словарем Даля и/или Ожегова ... Но вы же сами понимаете - все эти доп. проверки будут всего навсего изрядной нагрузкой на сайт, а не панацеей.

В конце концов - как они собираются определять маты на картинке ?

А ругаться можно и так

Граф Теодор попал в беду 
Схватил графиню за ... 

Мата нет - но всем всё ясно.

Аватар пользователя Alexn.Klimov
Alexn.Klimov(10 лет 11 месяцев)

Ну нет так все просто. Кто сказал что не будут ручные контрольные проверки? И главное ответственность редакторов, модераторов, собственников сайта. И вот они то быстренько вас за графиню и забанят. Вопрос закрыт.

Аватар пользователя PersonaNonGrata
PersonaNonGrata(10 лет 1 месяц)

Кто сказал что не будут ручные контрольные проверки?

О чем я и сказал в первом посте - программа автопоиска мата АНРИАЛ. Хоть тресни, а вычитывать/высматривать придется.

Аватар пользователя Ник
Ник(10 лет 9 месяцев)

Интересен сам алгоритм. Она (программа) ведь может реагировать и на "застрахуй" и "употреблять" :)

Аватар пользователя Темная Сторона

В такой программе лексический разбор текста обязателен. Тут ламеры пишут про регэкспы какие-то, бред. Планируется полный разбор текста на лексемы с учетом словоформ, устойчивых выражений, и типовых ошибок (в том числе злонамеренных - в частности типа прон), и далее поиск по нормализованному тексту. Базу словоформ будут пополнять регулярно, например "иди на МПХ", или "от ТП слышу". Это лет 10 уже работает во всех поисковиках, просто купить готовую программу, и под нее недорогой сервер.

Аватар пользователя sPirtovicH
sPirtovicH(12 лет 3 месяца)

Ну, такие самые простые и очевидные попытки обхода фильтров можно достаточно просто ловить правильно написанными регулярными выражениями. Они доставят немало сложностей тому комментатору, который очень уж хочет ввернуть матерное словечко.

Если не получится употребить классическую матершину, народ начнет выдавать адаптированные ругательства.

Аватар пользователя Mozgun
Mozgun(11 лет 9 месяцев)

И с волшебными словами абанарот-абанамат! приступим...

А еще я знаю грязные немецкие ругательства! В книге Я.Гашека о похождениях бравого зольдата Швейка их немало..

Аватар пользователя поляр
поляр(11 лет 7 месяцев)

Хватит и русской словесной изобретательности, на любой роскомнадзор

Аватар пользователя Гранд
Гранд(10 лет 2 месяца)

Помню зампотех батальона, увидев как узбек дембель пилит ржавым напильником снаряд от БМД-2 возле стоявщих на боевом хранении ГАЗ-66 с боезапасом батальона, матерился минту 20, причем ни разу не повторился. Если бы его пламенную речь выложить сейчас в ютуб филологи бы от зависти померли. Обойти систему несложно, на крайняк будем пи пи вставлять. Время еще есть подумать до 4 квартала много воды утекет. Думается это тупая и бесполезная попытка банить неудобных властям блогеров. Ну флаг им в руки и транспарант ....... на шею.

Аватар пользователя iStalker
iStalker(12 лет 2 месяца)

Они хотят лишить меня возможности матерится онлайн? Вот они %@^@#$@$!!! :)

Аватар пользователя brotherflame
brotherflame(12 лет 2 недели)

dick cunt fuck dumbass fag moron piss off  -- "Эти слова теперь запрещены на нашем радио."(с)

Аватар пользователя Гранд
Гранд(10 лет 2 месяца)

Учите узбекский - ай нам гаски:))))

Аватар пользователя hvv
hvv(12 лет 2 месяца)

> Суммарная стоимость создания новой системы оценивается в 25 миллионов рублей.

ППЦ сколько распилили! Такую систему тривиально написать за неделю одному программисту средней квалификации - краулер сайтов, ковертер страниц в юникод, и поиск используя регулярные выражения. Даже студент-хорошист в ИТ вузе может такое написать!

Аватар пользователя sPirtovicH
sPirtovicH(12 лет 3 месяца)

Это не просто написанный скрипт с регэкспом. Это ж автономная система на манер поисковика, который шерстит все вложенные ссылки на определенных ресурсах всего перечня зарегистрированных СМИ и ищет, ищет. Ищет не только буквы, но и распознает символы на изображениях (в перспективе видео и аудио). Я так понимаю, что железо для системы входит в эту же цену.

Аватар пользователя hvv
hvv(12 лет 2 месяца)

> который шерстит все вложенные ссылки на определенных ресурсах

это и делает краулер - перебирает все ссылки на странице, и ходит по тем, по которым еще не ходил или ходил давно

> но и распознает символы на изображениях (в перспективе видео и аудио)

это она будет делать В ПЕРСПЕКТИВЕ, то есть хз когда, и за дополнительную плату, и только если сочтут необходимым заказать эту функциональность.

Это обычный прием госворья - задрать требования, чтобы обычные подрядчики зассали браться за проект. Типа если делаем сайт одной школы, то в требованиях пишут что должен держать 100к посетителей в моменте и тд.

> что железо для системы входит в эту же цену.

железо не такое дорогое для этого требуется, десяток маломощных ПК  для этого хватит или один мощный сервак за $10k для этого будет достаточно. Все имхо будет упираться в скорость сети.

Аватар пользователя sPirtovicH
sPirtovicH(12 лет 3 месяца)

Маломощные ПК не подходят для круглосуточной работы. Чтобы обсуждать стоимость проекта, необходимо изучить техническое задание, а я его не видел.

Может там сверхгибкая система анализа и отчетности с интуитивным интерфейсом для бабушек. Плюс поддержка продукта денег стоит.

Аватар пользователя hvv
hvv(12 лет 2 месяца)

ок, маломощные серверы вместо маломощных ПК.

25 лимонов за это - это запредельная величина, завышенная раз в 10-50, даже если включить железо и саппорт и интуитивные интерфейсы. Учитывая что разработку в 100тр можно вписать если хотеть.

Аватар пользователя sPirtovicH
sPirtovicH(12 лет 3 месяца)

Оу, какие 100 тысяч за разработку? 100 тысяч - это зарплата только одного программиста в Москве за 1 месяц. А руководитель проекта, аналитики, тестировщики? И разработчик, думается мне, точно не один.

Серьезный корпоративный продукт не пишется фрилансером на коленке, тут совсем другой уровень ответственности.

Я нисколько не пытаюсь оправдать цену или убедить, что в данной ситуации нет распила. Но с учетом распознавания картинок, звукового ряда из аудио и видео, и тем более изображений видеоряда - это как раз в указанные полгода разработки вписываются, а то и больше.

Аватар пользователя Темная Сторона

Зачем краулера писать - есть поисковая база Яндекса - к ней сервис прикрутить, ну конечно железо и софт нужно докупить, резервирование обеспечить. Нормальная сумма, мелкий заказ мелкой конторы...

Аватар пользователя sPirtovicH
sPirtovicH(12 лет 3 месяца)

Эммм, это даже обсуждать не хочется.

Аватар пользователя Темная Сторона

Не хочется или не можется ? Я занимался защитой от таких роботов. Простой пример тебе - как исказить текст, чтобы его прочел человек, но не прочел робот (и таких методов много есть):

По рзелульаттам илссеовадний одонго анлигйсокго унвиертисета, не иеемт занчнеия, вкокам пряокде рсапожолены бкувы в солве. Галвоне, чотбы преавя и пслоендяя бквуы блыи на мсете. Осатьлыне бкувы мгоут селдовтаь в плоонм бсепордяке, все-рвано ткест чтаитсея без побрелм. Пичрионй эгото ялвятеся то, что мы не чиатем кдаужю бкуву по отдльенотси, а все солво цликеом.

Аватар пользователя sPirtovicH
sPirtovicH(12 лет 3 месяца)

Именно не хочется обсуждать "поисковую базу Яндекса", "прикрутить к ней", "мелкий заказ".

И этот баянистый текст приводить незачем, в рунете десяток лет назад уже активно использовался Падонкаффский сленг, плюс активные включения регекспов в чатах и на форумах рунета давно модицифировали матершину в нарочито ошибочные "**ять" и "*есда". Мало того, складывается впечатление, что недавно научившиеся читать пользователи рунета принимают данные формы матерных слов за единственно верные, потому что чаще всего встречают их в интернете именно в таком написании.

Аватар пользователя Темная Сторона

С краулерами тоже не все просто - есть динамические ссылки, есть устаревающие ссылки, хранилище страниц надо новое создавать, там миллиарды записей будут, зачем изобретать велосипед, если есть база яндекса, что нельзя его паяльником заставить ?

Что касается баянистого текста, я писал программу случайной перестановки букв, и пришел к выводу, что баян работает лишь для коротких слов, для длинных - случайно надо переставлять не буквы, а слоги. А если параллельно проводить замену букв на псевдографику (a = @, л = ^),  то робот должен быть интеллектуальным, и самое главное - вероятностным.

Аватар пользователя hvv
hvv(12 лет 2 месяца)

да этих открытых библиотек краулеров в инете хоть ж*пой жуй. Не обязательно яндексовский краулер брать.

Аватар пользователя hvv
hvv(12 лет 2 месяца)

повторяю, распознавание видео и аудио - это не входит в 25млн руб.

Одного программиста на месяц хватит (нормальный менее чем за неделю сделает). Ну и программисты бывают не только в москве.

Аватар пользователя Temp
Temp(11 лет 6 месяцев)

>и поиск используя регулярные выражения

Что выливается либо в то, что заковыристый мат не находится, либо в то, что находится мат там, где его нет.

Аватар пользователя hvv
hvv(12 лет 2 месяца)

99% мата в инете регулярные выражения найдут.

Аватар пользователя Temp
Temp(11 лет 6 месяцев)
  1. Юзеры станут изобретательнее
  2. Ложные срабатывания. Скажем, известное слово "куй", который, помимо заменителя мата, ещё и образуется от "ковать". Ну и всякие "2 рубля", "оскорблять", и т. д. и т. п. 


В общем, глупо надеяться, что по сути лексер справится даже с русским словообразованием, а тем более, с семантикой. 

Аватар пользователя hvv
hvv(12 лет 2 месяца)

учите регекспы -  у PCRE есть модификаторы матчинга на границах слова.

Аватар пользователя Temp
Temp(11 лет 6 месяцев)

Talk is cheap. Show me the code. 

Linus Torvalds

В общем, покажите код фильтрования трёх наиболее изестных матерных слов (б, п, х), который не имеет ложных срабатываний, а мы его потестим.

Аватар пользователя hvv
hvv(12 лет 2 месяца)

\w((бля([тд]ь|(д(ь|и|ям|ями|ью))))|(п[ие]зд[ауые])|(ху(й|ями|и|ем))

скомпиленая с модификатором игнорирования регистра.

В конец тоже можно добавить \w - необходимость этого пока не понимаю

Аватар пользователя Temp
Temp(11 лет 6 месяцев)
  1. Скобочки несбалансированы.
  2. В чём смысл \w в начале?
Аватар пользователя hvv
hvv(12 лет 2 месяца)

про \w - читайте мануалы. Это матчинг на границе слова. Чтобы "подстрахуй" не матчилось

Аватар пользователя Temp
Temp(11 лет 6 месяцев)

Читаю мануал.

\w        [3]  Match a "word" character (alphanumeric plus "_", plus other connector punctuation chars plus Unicode  marks)

http://perldoc.perl.org/perlre.html

\w - алфавитно-цифровой или '_' символ;

http://www.pcre.ru/docs/perl/text/intro/

то есть, лишний символ перед словом.

Может быть, имелось ввиду \W?

P.S. Скобочки сбалансируйте в регекспе, пожалуйста. 

Аватар пользователя hvv
hvv(12 лет 2 месяца)

ах, да, надо \W вместо \w

сами скобочки балансируйте

Аватар пользователя Temp
Temp(11 лет 6 месяцев)

>сами скобочки балансируйте

Я же не знаю, что вы сказать хотите. Например, зачем нужно [тд]ь|(д(ь - для меня загадка. Мне нужно получить работоспособный регексп без отсебятины, чтобы затем задавать по нему вопросы, а точнее, показывать те слова, на которые он не среагирует, и их, основанных на наших трёх словах, судя по регекспу, будет очень много.


Потом, по мере разрастания регекспа, возникнет обычная проблема его читаемости (write-only программа), и по ней я тоже задам вопрос.


Ну а затем, когда вы признаете, что регекспы не годятся для разбора естественного языка, особенно такого флективного, как русский, мы закончим разговор.

Аватар пользователя iskatel istini
iskatel istini(10 лет 11 месяцев)

А что мешает использовать 6 (цифра) вместо б (буква)? Или йа вместо я? Или x (латиница) вместо х (кириллица)?

Или ещё кучи вариантов "незначительных" ошибок "традиционного написания" с визуальным распознаванием?

Непонятно, как будет распознаваться отформатированный текст (выделение полужирным/курсивом/подчёркиванием "нужной" части слова или фоновый цвет шрифта для "лишней" части слова).

А да, я ж забыл, что все в интернете пишут либо по правилам русского языка, либо с заранее принятыми и утверждёнными "ошибками".

Аватар пользователя sPirtovicH
sPirtovicH(12 лет 3 месяца)

Классические "оскорблять", "колебания" и им подобные безобидные слова уже много лет страдают от кривых регекспов)

Аватар пользователя PersonaNonGrata
PersonaNonGrata(10 лет 1 месяц)

Ага ... Себя от холода страхуя в кабак зашли ...

Аватар пользователя Темная Сторона

Сумма смешная - это как раз вознаграждение одного менеджера + зарплата одного программиста. По федеральным меркам - бесплатно, так что никакого распила тут нет.

Аватар пользователя поляр
поляр(11 лет 7 месяцев)

А всему виной сердюков. Если б его не амнистировали, наглого ворюгу, то и роскомнадзор не борзел бы со своим очередным распилом бюджета. Да и многие другие бы... 

Аватар пользователя sPirtovicH
sPirtovicH(12 лет 3 месяца)

Вообще забавно, Роскомнадзор сам готовит перечень матершины? Или все же привлекает экспертов-лингвистов, филологов и прочих гуманитариев? 

И как быть с уже опубликованными стихами Пушкина и Маяковского? =)

Аватар пользователя Гранд
Гранд(10 лет 2 месяца)

Они их в списки запретных сразу внесут, как вчера ржал когда племяннику на руки в школьной библиотеки не дали Преступление и наказание - от 18+ теперь:) 

Аватар пользователя Темная Сторона

Объявит федеральный тендер, конечно. Только эксперт со специальным образованием может отличить матерное слово от обычного.

Аватар пользователя Нумминорих Кута
Нумминорих Кута(11 лет 11 месяцев)

Ещё бы и фильтр на грамотность поставили бы...

Чтобы неучи не могли вообще что-то запостить.

Аватар пользователя sPirtovicH
sPirtovicH(12 лет 3 месяца)

Дополнительно ко вводу Капчи проверять содержание комментария на грамматические ошибки

Страницы