Вход на сайт

МЕДИАМЕТРИКА

Облако тегов

Может ли «Яндекс» почистить новости от мусора?

Аватар пользователя Олег Макаренко

Сейчас депутаты пытаются заставить «Яндекс» проверять новости, которые он публикует на главной своей странице. «Яндекс» против: по мнению «Яндекса» это невозможно технически. Герман Клименко, советник президента по интернету, тоже против, по его мнению, ответственность за недостоверную информацию должны нести первоисточники:

http://www.kommersant.ru/doc/2923764

Руслан Осташко, главный редактор «Политической России», в свою очередь, считает, что вопрос тут во многом политический — законопроект, который готовят депутаты, может в итоге доставить проблемы тем, кто управляет своими компаниями через офшоры:

http://politrussia.com/society/pyatiminutka-zdravogo-smysla-386/

Я в целом нахожу эти доводы разумными, однако хочу все же обратить внимание на несколько неочевидных моментов.

Начнём с того, что ни «Яндекс», ни «Гугл» не дают сейчас пользователям возможности найти первоисточник новости или вброса. Казалось бы, все просто: в базах поисковиков хранится как время индексации, так и порядок ссылок. Поисковики могут элементарно определить, что новость такая-то появилась на малоизвестном ресурсе «Дальнеглушские ведомости», потом ее перепостил у себя федеральный «Гудок хипстера», а уж потом она широко разошлась по остальным СМИ.

Но нет: распутывать эту цепочку пользоателям предлагается самостоятельно. Лично я считаю себя опытным следопытом, за свою жизнь я сделал несколько сотен тысяч запросов в поисковики. Однако даже мне докопаться до «корней» вбросов бывает нелегко. Читателям же с меньшим опытом зачастую остается только разводить руками: так как галочки «выделить первоисточник жирным» поисковики им не предлагают.

Следующий важный момент. Мы всё ещё живём по стандартам англосаксонской журналистике, согласно которым все новости делятся на два типа: на плохие новости и новости об английской королевской семье.

Если журналист пишет о ком-нибудь или о чём-нибудь даже не хорошо, а хотя бы нейтрально, редактор немедленно вызывает журналиста на ковёр: «почему ты, подлец, взял деньги за заказуху и не поделился ими со мной?».

Из-за этого в списке новостей преобладает разнообразная чернуха — и если новостной агрегатор не будет учитывать это искажение, реальность предстанет перед читателями в самом неприглядном свете, скорбной, как в памятной передаче «600 секунд».

Подумаем теперь, могут ли поисковики решить эти две проблемы — отфильтровать новости от бессмысленных перепостов и снизить непропорционально большое количество плохих новостей.

Казалось бы, сделать это сложно и даже в некотором роде неправильно: ведь честное зеркало должно отражать реальность в том виде, в каком оно её видит... однако давайте объективно посмотрим на обычную поисковую выдачу того же «Яндекса». Мы увидим, что «Яндекс» великолепно умеет отсекать мусор, чтобы показывать нам на первых местах не самые продвигаемые, а самые релевантные, лучше всего соответствующие нашему запросу сайты.

Убежден, то же самое можно сделать и с новостями: убрать не представляющие интереса «рерайты» оригинальных сообщений, изменить пропорцию новостей так, чтобы чернуха занимала не больше объема, чем в жизни, делить новости на информацию, аналитику и публицистику... повторюсь, современные поисковики в своё время проделали аналогичную работу для того, чтобы выиграть конкуренцию у плохо фильтрующих информацию динозавров старого интернета. 

Пора бы уже применить тот же подход и к новостям. В конце концов, роботам уже удаётся даже сортировать картинки: уверен, что разложить по полочкам новости будет не так уж сложно технически.

При этом меня совершенно не интересует, будет ли «Яндекс» руководствоваться в своей работе патриотическими побуждениями. Для того, чтобы мы получили полезные обществу новости, это не нужно и, простите меня за крамолу, возможно, даже вредно. Для того, чтобы новости стали лучше, нужно просто почистить их от мусора — ровно так, как это происходит сейчас с основной выдачей «Яндекса».

Само собой, запустить этот процесс по приказу сверху невозможно: я не представляю себе депутатов, которые решатся подробно прописать в законопроекте механизмы фильтрации мусорных новостей. Однако я все же надеюсь, что «Яндекс» таки обратит внимание на высокую популярность своего новостного портала и выделит некоторые интеллектуальные ресурсы на приведение его в достойный главного поисковика России порядок.
 

Фонд поддержки авторов AfterShock

Комментарии

Аватар пользователя segerist
segerist(5 лет 11 месяцев)(14:32:13 / 29-02-2016)

как ни крути а цензура вещь полезная, как минимум в фильтрации мусора

Аватар пользователя Safron
Safron(5 лет 7 месяцев)(17:01:15 / 29-02-2016)

мусора и либероидной блевотины)

Аватар пользователя Дирижёр
Дирижёр(2 года 4 месяца)(14:39:19 / 29-02-2016)

Поисковики вполне способны определять воровство и вообще не индексировать украденные статьи без ссылок на первоисточник. Они же могут отсекать вообще все копирования информации, даже со ссылкой на источник. Это даже было бы здорово, если поиск выдавал лишь одну единственную ссылку на первоисточник, а не мегатонны копипастов и воровства.

Поисковики вообще давно скрыли, а на самом деле по сути отключили даже возможность сортировки по дате. Потому что они уже давно ищут вовсе не то, что мы хотим найти, а то, что они хотят нам втюхать.

Комментарий администрации:  
*** "Большевиков приравниваю к Геббельсу... Сам - дочь сдавшегося в плен расстрелянного петуха" (с) ***
Аватар пользователя nesvobodnye
nesvobodnye(2 года 8 месяцев)(15:02:04 / 29-02-2016)

Допустим: я увидел что-то интересное и сообщил новость в своём блоге 1 января в 10 утра, а мой знакомый журналист разметил эту новость в СМИ в 11 утра без ссылки, то кто будет первоисточник? Фактически - я. с точки зрения поисковой машины первоисточником будет та страница, которую быстрее найдёт робот. Если учесть, что на СМИ роботы почти пасутся, то первоисточником будет журналист. В выдаче Яндекса появится СМИ,а не мой блог.

Однако когда робот обнаружит мою новость в блоге, он увидит дату создания страницы 10 утра и может (не обязательно) решить, что первоисточник всё-таки я. В этом случае выдача Яндекса может быть (не обязательно) скорректирована и моя запись тоже появится в выдаче через несколько дней, после АПа (обновления базы поисковой выдачи поисковика).

Вношу коррективу. Я решил в моей новости поменять в 12 часов фото, как более соответствующее новости. В этом случае дата создания моей страницы будет 12 часов, а страницы в СМИ - 11 часов и первоисточником робот поисковика назначит СМИ и запись в блоге не попадёт (не обязательно) в выдачу поисковика. Но скорее всего попадёт в выдачу по блогам, которая мало кого интересует.

Если учесть, что страницы СМИ меняются очень часто из-за рекламы, агрегаторов и т.д., то время создания страницы в СМИ почти актуально текущему, однако из-за низкой оценки новостей в блогах, которые Яндекс считает почти мусором, оригинальная новость (даже без изменения фото, т.е. 10-часовая) может не попасть в выдачу.

Краткий итог: определение оригинала контента с точки зрения поисковика является нетривиальной задачей, т.к. интернет не индексируется (страницы не скачиваются роботом) мгновенно и индексация существенно не равномерна.

Аватар пользователя Дирижёр
Дирижёр(2 года 4 месяца)(15:22:19 / 29-02-2016)

Да ладно басни плести. У любой нормальной новости в СМИ есть автор и время. Нету? Пошли в причинное место! А то гутен морген гутен таг... Хлоп по морде - и вот так!

Комментарий администрации:  
*** "Большевиков приравниваю к Геббельсу... Сам - дочь сдавшегося в плен расстрелянного петуха" (с) ***
Аватар пользователя nesvobodnye
nesvobodnye(2 года 8 месяцев)(15:24:09 / 29-02-2016)

Конечно есть, фактически. Вася Пупкин, 10:00 1 января.

А как оно плавает с точки зрения робота поисковой системы - я описал. Не верите - ваши проблемы.

Аватар пользователя Дирижёр
Дирижёр(2 года 4 месяца)(15:35:09 / 29-02-2016)

Вы мне лапшу на уши не вешайте. Время везде есть в нормальных источниках. И в ЖЖ тоже. Оно не плавает.

На Афтершоке время точно не плавает, сколько раз статью не правь.

Если у кого изредка возникнут проблемы - может решить их в частном рабочем порядке, засудив яндекс доказав своё авторство.

Комментарий администрации:  
*** "Большевиков приравниваю к Геббельсу... Сам - дочь сдавшегося в плен расстрелянного петуха" (с) ***
Аватар пользователя woddy
woddy(4 года 11 месяцев)(16:17:51 / 29-02-2016)

>> На Афтершоке время точно не плавает, сколько раз статью не правь.

значит беру свой пост вчерашний, исправляю на новость об оскаре. ура, первоисточник.

Аватар пользователя nesvobodnye
nesvobodnye(2 года 8 месяцев)(16:20:09 / 29-02-2016)

значит беру свой пост вчерашний, исправляю на новость об оскаре. ура, первоисточник.

Спасибо за идею стартапа: делаю мусорный сайт с большим числом страниц, потом сдаю его по кусочками под первоисточники))

Аватар пользователя Дирижёр
Дирижёр(2 года 4 месяца)(18:03:24 / 29-02-2016)

В тот же день получите пинок под зад от хозяина ресурса хехе.

Комментарий администрации:  
*** "Большевиков приравниваю к Геббельсу... Сам - дочь сдавшегося в плен расстрелянного петуха" (с) ***
Аватар пользователя ayvindov
ayvindov(3 года 9 месяцев)(15:39:17 / 29-02-2016)

с точки зрения поисковой машины первоисточником будет та страница, которую быстрее найдёт робот.

Нет. У возвращаемых по HTTP документов есть дата изменения. И на неё ориентируются. В том числе и при повторном запросе на закачку документа (тип запроса HEAD, а не GET). То, что сами документы имеют динамику с точки зрения пользователя, никак не меняет возможности настроить на веб-сервере правильную выдачу даты изменения документа по основному блоку страницы. Помимо даты изменения документа, возвращаемого в HTTP-ответе, есть сведения о дате в самой новости и в мета-данных. Их тоже извлекают и используют поисковики.

Какую страницу робот найдёт быстрее -- тоже не совсем корректно говорить с точки зрения реального процесса: ресурсы взаимодействуют с поисковиками через sitemap и протоколы запросов на индексацию, ленивые -- просто тиснули себя в базу поисковика для индексации. В результате как такого поиска не происходит: при систематическом обходе работает одновременно уведомительная схема и направленная опросная. Т.к. новости -- особый вид документов, для которых крайне важно вовремя быть предоставленными пользователю, то обновление базы происходит иначе. Внешне это выглядит как более частое обновление базы, но внутри работают несколько иные механизмы с приоретизацией.

Первоисточник новости не обязательно выдавать сразу: будет показываться какое-то время самый крайний найденный.

Аватар пользователя nesvobodnye
nesvobodnye(2 года 8 месяцев)(15:45:42 / 29-02-2016)

У возвращаемых по HTTP документов есть дата изменения. И на неё ориентируются.

Изменения даты могут произойти при редактировании - это раз. Второе - рассмотрен вариант конкуренции блога (не СМИ с т.з. Яндекса) и СМИ. У блога (оригинал) шансов нет. Три - новости передираются разными СМИ достаточно быстро и соотнести даты публикации/редактирования/нахождения поисковиком не всегда получается корректно.

То, что сами документы имеют динамику с точки зрения пользователя, никак не меняет возможности настроить на веб-сервере правильную выдачу даты изменения документа по основному блоку страницы.

Не все СМИ имеют грамотных веб-мастеров, способных настроить сервера таким образом. В период кризиса экономия на персонале (в т.ч. квалифицированном) особенно актуальна.

Помимо даты изменения документа, возвращаемого в HTTP-ответе, есть сведения о дате в самой новости. Их тоже извлекают и используют поисковики.

Да, соглашусь. Этот параметр может использоваться. Но дата может ставиться вручную, например 1999 год. И что тогда?

Т.к. новости -- особый вид документов, для которых крайне важно вовремя быть предоставленными пользователю, то обновление базы происходит иначе. Внешне это выглядит как более частое обновление базы, но внутри работают несколько иные механизмы.

По новостному контенту допуская иную работу базы, иначе новостной сервис можно закрывать из-за неактуальности.

Первоисточник новости не обязательно выдавать сразу: будет показываться какое-то время самый крайний найденный.

Это так, но я пытался объяснить товарищу не ситуативную выдачу, а выдачу относительно фактического нахождения первоисточника.

Аватар пользователя Terror
Terror(1 год 11 месяцев)(14:34:22 / 29-02-2016)

Я в ахуе. Депутаты блин, уточнить в законе понятие СМИ что бы подборка Яндекса подпадала под это определение и всего делов. А бучу развели... Сколько же денег вливают что бы иметь возможность инфопомойку эту использовать. 

Аватар пользователя AfterShock_Administration
AfterShock_Admi...(3 года 7 месяцев)(14:44:12 / 29-02-2016)
маты, блокировка на месяц.
Аватар пользователя Chugunov
Chugunov(4 года 9 месяцев)(15:07:25 / 29-02-2016)

О, автоматика на страже? 8)

Аватар пользователя alexsword
alexsword(6 лет 2 месяца)(16:44:25 / 29-02-2016)

Люди сигналы дают :-)

Аватар пользователя МИР
МИР(2 года 1 неделя)(14:41:29 / 29-02-2016)
Комментарий администрации:  
*** Видали ли Вы кого-то более унылого, чем осел Иа? Теперь видали, хехе! ***
Аватар пользователя Vladyan
Vladyan(2 года 7 месяцев)(14:45:39 / 29-02-2016)

Архиважное дело! Не фиг новости про Оскар ДиКаприо на первом месте на с утра! cheeky

Аватар пользователя Денисka
Денисka(2 года 9 месяцев)(14:55:03 / 29-02-2016)

Яндекс.Новости и так копипасту не публикует, а только копирайт с уникальностью не менее 60% (по моим наблюдениям). А в топ идут новости, на которые больше всего запросов. Что тут поделать, если люди у нас падки на всякую чернуху?

Аватар пользователя nesvobodnye
nesvobodnye(2 года 8 месяцев)(15:08:54 / 29-02-2016)

Давайте сравним 2 текста, второй - мой рерайт. Какова его уникальность с точки зрения машинного алгоритма?

Яндекс.Новости и так копипасту не публикует, а только копирайт с уникальностью не менее 60% (по моим наблюдениям). А в топ идут новости, на которые больше всего запросов. Что тут поделать, если люди у нас падки на всякую чернуху?

Сервис новостей Яндекса не оригинальный контент размешает не всегда, давая преимущество оригинальным новостям с высокой уникальностью (от 60 процентов (по наблюдениям некоторых специалистов). Преимущество (т.н. ТОП) даётся новостному контенту, наиболее интересующему пользователей этого сервиса, с наибольшим числом запросов. Если ли вина Яндекса в желании пользователей видеть негатив?

Аватар пользователя Дирижёр
Дирижёр(2 года 4 месяца)(15:13:46 / 29-02-2016)

Довольно сложно представить дибила, который заходит в яндекс и набирает в поиске "хачю негатив"

Комментарий администрации:  
*** "Большевиков приравниваю к Геббельсу... Сам - дочь сдавшегося в плен расстрелянного петуха" (с) ***
Аватар пользователя nesvobodnye
nesvobodnye(2 года 8 месяцев)(15:17:26 / 29-02-2016)

А так легче представить?

Аватар пользователя Дирижёр
Дирижёр(2 года 4 месяца)(15:30:08 / 29-02-2016)

Не понимаю о чём вы. Я вот сейчас зашёл на яндекс, а там вот такая хрень:

  1. Следственный комитет завел дело после убийства ребенка няней в Москве
  2. Президент утвердил повышение с 1 апреля акцизов на бензин и дизтопливо
  3. В Кремле прокомментировали возможный уход Кадырова
  4. Леонардо Ди Каприо завоевал свой первый «Оскар»
  5. СМИ: Орбан исключил автоматическое продление санкций против РФ

А я вообще-то зашёл чтобы набрать слово "жопа". Ну и получил 16 млн. ответов. Какое отношение к моему поиску имели все эти говноновости - только один хрен Чорного Властилина знает. Я это говно не просил и не искал на яндексе!

Комментарий администрации:  
*** "Большевиков приравниваю к Геббельсу... Сам - дочь сдавшегося в плен расстрелянного петуха" (с) ***
Аватар пользователя Дирижёр
Дирижёр(2 года 4 месяца)(15:10:22 / 29-02-2016)

"в топ идут новости, на которые больше всего запросов"(c)

Вот этого я не понимаю. Если это новость, то я физически не могу именно её запросить, потому что она для меня ещё не произошла.

Вот я в стотыщпятисотый раз захожу на яндекс и набираю в поиске например "сиськи алёны свиридовой". А новости там уже сразу показывают про ведьму из Клинтона. Которые никакого отношения к моему запросу не имеют.

Поисковики просто плюют на меня - это медицинский факт. Ну и с какой стати я должен им на слово верить, что именно эти новости больше всего ищет народ? Это же очевидная глупость. Люди вовсе не ищут это дерьмо. Они тыкаются по ссылкам, которые им подсовывают. Это вовсе не значит, что их интересует это дерьмо. Просто поисковики им другого не предлагают.

Комментарий администрации:  
*** "Большевиков приравниваю к Геббельсу... Сам - дочь сдавшегося в плен расстрелянного петуха" (с) ***
Аватар пользователя Arsland
Arsland(2 года 3 недели)(15:28:19 / 29-02-2016)

Из любопытства набил  "сиськи алёны свиридовой"...ммм, она и в самом деле разделась уже...а вот «сиськи Хиллари Клинтон» я бы смотреть не стал, бээээ...

 Подмены поисковик не предлагал...

Аватар пользователя nesvobodnye
nesvobodnye(2 года 8 месяцев)(15:47:44 / 29-02-2016)

В следующий раз обратите внимание на ту рекламу, которую выдаст вам Яндекс) Вас ждёт наслаждение)

Аватар пользователя Дирижёр
Дирижёр(2 года 4 месяца)(16:03:56 / 29-02-2016)

А я себе на андроида поставил Adguard. Рекламы вообще не вижу уже месяца три. 7 GB трафика якобы уже сэкономил на планшете.

Комментарий администрации:  
*** "Большевиков приравниваю к Геббельсу... Сам - дочь сдавшегося в плен расстрелянного петуха" (с) ***
Аватар пользователя nesvobodnye
nesvobodnye(2 года 8 месяцев)(16:06:22 / 29-02-2016)

И это правильно. У меня на Мозилке стоит Адблок, с тем же эффектом.

Но иногда отключаю ручками и даю заработать любимым ресурсам несколько лишних копеек.

Аватар пользователя Arsland
Arsland(2 года 3 недели)(15:29:14 / 29-02-2016)

Ааа...а я то думал, что тут про навязчивость Яндекса, который на ряду с Гуглом конспиративно вбухивает (нередко прожорливые) тулбары и др. П.О... 

Аватар пользователя woddy
woddy(4 года 11 месяцев)(16:07:10 / 29-02-2016)

На уровне поисковиков проблема. Сайт РБК он просматривает раз в три минуты, сайт "гудок хипстера" раз в пол часа, а "мухосраниские новости" раз в неделю, потому что они публикуются редко.

Ту пургу, что пишут выше про якобы "время публикации новости" не обращай внимания. Это время подделывается слишком легко, и поисковики его игнорируют.

Аватар пользователя Дирижёр
Дирижёр(2 года 4 месяца)(16:11:30 / 29-02-2016)

Подделку времени поисковик в нормальных СМИ выявит на счёт раз. А жуликоватую воровскую парашу давно пора блокировать и вообще там ничего не искать даже роботам.

Комментарий администрации:  
*** "Большевиков приравниваю к Геббельсу... Сам - дочь сдавшегося в плен расстрелянного петуха" (с) ***
Аватар пользователя woddy
woddy(4 года 11 месяцев)(16:16:10 / 29-02-2016)

Я не про нормальные сайты, а про "вестник мухосранска", который является первоисточником новости/вброса.

Изучите раскрутку любого вброса.

1) неизвестный блоггер запостил

2) подтанцовка на окладе из овальных и подобных отрепостила в течении нескольких часов

3) сми уровня "вестник мухосранска" или "эхо москвы" перепостили ссылаясь на "блоггеров"

4) первый эшелон (рбк, риа, тасс) размещают ссылаясь на "сми"

 

какой первоисточник должен выдавать яндекс?

Аватар пользователя Дирижёр
Дирижёр(2 года 4 месяца)(18:09:41 / 29-02-2016)

А зачем вы сперва говорите про подделку времени, а потом вдруг спрыгиваете на раскрутку вбросов?

Вы уж сперва определитесь.

У вброса поисковик вообще не должен показывать первоисточник. На то он и вброс. Чтоб всем сразу было видно что трололо.

Комментарий администрации:  
*** "Большевиков приравниваю к Геббельсу... Сам - дочь сдавшегося в плен расстрелянного петуха" (с) ***
Аватар пользователя woddy
woddy(4 года 11 месяцев)(16:10:53 / 29-02-2016)

А чернуху пипл хавает. Это как порнуха только круче. Прочитал про отрезанную голову - плеснулся адреналин в кровь. Отпустило, организм требует новую дозу и побольше.

Пообщайся с врачами, они тебе лучше объяснят. Это я так, на пальцах.

Аватар пользователя greygr
greygr(5 лет 10 месяцев)(17:07:11 / 29-02-2016)

там и дофамин ещё)

Аватар пользователя lalalala
lalalala(2 года 6 месяцев)(17:13:06 / 29-02-2016)

странно почему про рУмблем молчат, там вообще ад адский в новостях творится. 

Аватар пользователя Снег
Снег(2 года 1 неделя)(21:34:12 / 02-03-2016)

В декабре прошлого года в рамках сервиса «Яндекс.Новости» было начато тестирование новой функции «С чего всё началось».

При её реализации были использованы собственные технологии поисковика, позволяющие определять первоисточник новости как среди традиционных СМИ, официальных ресурсов различных компаний и государственных ведомств, так и в популярных социальных сетях. В выдаче сервиса «Яндекс.Новости» первоисточник выделяется надписью «С чего всё началось».

Источник

 

 

Лидеры обсуждений

за 4 часаза суткиза неделю

Лидеры просмотров

за неделюза месяцза год

СМИ

Загрузка...