Вас забанила нейросеть: как новый алгоритм Яндекса постепенно выкидывает из поиска региональные СМИ

Аватар пользователя Crimea721

Пару недель назад я совершенно случайно обнаружил в Яндекс.Вебмастере плашку о фатальной ошибке. Там было написано, что мой сайт может угрожать безопасности пользователя, или на нём были обнаружены нарушения правил поисковой системы. Других ошибок не было: индекс качества даже немного подрос.

Удивительно было, что этот сайт — известное в регионе СМИ, и вопросов к нему со стороны Яндекса не было все восемь лет его существования. Потому что мы и на самом деле нарушениями правил поисковиков не занимаемся. Но сначала я, конечно, подумал, что проблема в нас самих — где‑то спрятался баг или, того хуже, взломали. Однако всё оказалось куда интереснее.

Дело оказалось в новом алгоритме Яндекса, который теперь буквально запрещает писать новости. И в нашей области он уже забанил примерно треть независимых региональных СМИ. Причём под удар, на удивление, попали одни из самых качественных. Поэтому я считаю, что проблема здесь не столько в сайтах, сколько в самом алгоритме, создатели которого придумали хорошую идею по борьбе за уникальность контента, но не до конца её протестировали. Почему я пришёл к такому выводу и что конкретно с алгоритмом не так, я здесь и расскажу.


Далее следует рассказ с деталями, подробностями и скринами. Не буду здесь приводить, можно прочесть по ссылке у автора
читаем вывод...


 

Уже когда этот текст лежал в черновиках, техподдержка Яндекса написала по итогам более детальной проверки алгоритма. Её стали проводить после того, как я привёл пример с копиями моего же текста в чужих пабликах, которые, в отличие от оригинала, в выдаче были. Я спросил, то ли это, чего разработчики хотели от алгоритма, который должен был бороться за уникальный контент.

Ответ пришёл спустя несколько дней, там мне снова подтвердили, что алгоритм так и должен работать. Но появилась и новая информация, которая не дает поводов для оптимизма тем, кто причастен к СМИ:

«Замечу, что алгоритм внедряется постепенно, чтобы вебмастера могли обратить внимание на потенциальную проблему и решить её, улучшив качество своего сайта. Но со временем все сайты с подобными нарушениями будут ограничены в ранжировании, если их владельцы не прислушаются к нашим рекомендациям»

То есть, если издание ещё не убрали из выдачи - возможно, это не его заслуга, просто нейросеть ещё не катится по его улице. Впрочем, спастись просто: нужно лишь прислушаться к рекомендациям стать лучше. Подозреваю, что техподдержка и сама может не знать, что в сайте не понравилось нейросети. Она показала, что сайт плохой, и вопрос закрыт. Алгоритм умный, нет оснований ему не доверять. Будущее наступило. Смиритесь.

Авторство: 
Копия чужих материалов
Комментарий автора: 

Мой комментарий - в блоге..
https://aftershock.news/?q=node/1343904
Яндекс испортил алогритмы поиска. Теперь нужные сайты будем искать сами?
Вывод: имеем в пределе - сокрытие информации со стороны поисковиков, созданных крупными корпорациями.
 

Комментарии

Аватар пользователя очередь
очередь(10 лет 1 месяц)

Зато как на бирже растет падла.

Аватар пользователя Лукерий Пафнутьевич

Беда.

Аватар пользователя ВладимирС
ВладимирС(6 лет 8 месяцев)

Сдается автор что то недоговаривает и СМИ явно связаны с  НКО с присутствием иностранного финансирования. 

Аватар пользователя Crimea721
Crimea721(4 года 6 месяцев)

Здесь главное, не ситуация у автора..
А то, что мы с Вами каждый день лично уже наблюдаем:
результаты поиска искажены до неузнаваемости!
И никто не отвечает за работу алогритма..

А когда ИИ не найдёт наши с Вами данные на право завести ребёнка - будет поздно "пытаться дёрнуться".. 
Или когда Вам ИИ выдаст результат, что у Вас нет таланта для получения Высшего образования, и Ваша будущая профессия - на выбор "Дворник", или "Уборщик помещений" - вот тогда будет поздно думать, как "сломать ИИ"

Потому что мы с Вами уже не сможем это обсудить!

Аватар пользователя Radiohead
Radiohead(9 лет 7 месяцев)

Здесь главное, не ситуация у автора..

Ненене! "Ситуация у автора" тут вполне может быть главной) Что за ресурс-то? Номерной региональный? Из одной известной сетки?

Аватар пользователя GrumpyVK
GrumpyVK(4 года 2 месяца)

результаты поиска искажены до неузнаваемости!

Я вам разочарую: они уже дел двадцать как “искажены до неузнаваемости”.

Поисковиками, которые так и не научились их “искажать” (Alta Visa там или Rambler) просто тупо перестали пользоваться.

Другое дело, что спамеры не дремлют и научились обманывать системы ранжирования так, что они начали банить сайты с оригинальным контентом.

Для самых крупных сайтов там есть люди, которые следят, чтобы они не пропадали из поиска, но с миллионами мелких “что получилось, то уж получилось”.

Как с этим бороться — неясно. Разве что Китайский подход применить: белый список веб-сайтов, выход в интернет по паспорту и веб сайты тоже только разрешения партии. И то не факт, что сработает.

Аватар пользователя Феофан Пургелин

Не обязательно. Такие истории случались и будут случаться с завидной регулярностью. Лично огребал, когда новостные агрегаторы успевали проиндексировать новость на моём сайте до того как бот яндекса это сделал. Ну и получил страйк за якобы копирование. Поисковику плевать, когда документ создан, т.к. дата создания легко подделывается. Главное - когда он его скачал сам.

Касаемо глобальных дел - сейчас поисковые корпорации настолько зажали авторов контента, что масса ценных и интересных сайтов вообще никак не ищутся, так что мы возвращаемся постепенно во времена сарафанного радио и перекрёстных ссылок. Андерграунд и всё такое. Это одна тенденция.

И вторая, ничем не лучше - соцсети и мессенджеры хоронят опубликованную там информацию и найти её уже через год-два становится практически невозможно.

Ещё раз напомню, если вдруг кто не в курсе. Для любой корпорации, люди это корм. Свои, чужие.. Корм и только. Корову тоже, знаете ли, хвалят, гладят и кормят а потом херак и на бойню. Еда же, какие тут могут быть церемонии.

Аватар пользователя Lokki
Lokki(9 лет 8 месяцев)

В СМИ новость хоронится за неделю, а если новость тухло-помидорная, её сами журналисты закопают в самое дно.

Аватар пользователя dimashi
dimashi(11 лет 7 месяцев)

Шкулев медиа  etc  .. 

Аватар пользователя Кьньвпальто
Кьньвпальто(10 месяцев 3 недели)

Яндекс портится на уже  протяжении нескольких лет. Раньше я не мог обходиться без его сервисов. На сегодня я по привычке пользуюсь только  поисковиком и навигатором. Все остальное отстой. 

Если испортится поисковик, то Яндекс будет никому не нужен. 

Аватар пользователя uzbek
uzbek(11 лет 4 месяца)

Если испортится поисковик, то Яндекс будет никому не нужен. 

[ Безотносительно  ТС и его проблеме. ] Поисковик у Яндекса всегда был полное говно - с самого рождения и до сего дня. Печально то, что все альтернативы на территории РФ - мертвы(даже проект ростелика, на который были освоены миллиарды). И если "корпорация добра" отключит свой поисковый сервис - будет очень стремно.

Аватар пользователя Уголки
Уголки(1 год 3 месяца)

А он уже испортился. Ищу фото или картинку, он раза по три требует подтвердить, что я человек. И в поиск сует картинки нейросети.

Комментарий администрации:  
*** отключен (невмненяемое общение) ***
Аватар пользователя Кьньвпальто
Кьньвпальто(10 месяцев 3 недели)

Если это временная проблема из-за применения ИИ, то можно будет подождать и посмотреть, что будет дальше, а если Яндекс продолжит деградировать с той же скоростью, то придётся обходиться без него. 

Аватар пользователя alexsword
alexsword(13 лет 1 месяц)

Далее следует рассказ с деталями, подробностями и скринами. Не буду здесь приводить, можно прочесть по ссылке у автора
читаем вывод...

 

FAQ, пункт 3б:

б) - Ссылки (на видео, на книги и т.д.)  давать только вместе с кратким пересказом основных фактов, сути материала.  Нужно уважать время читателей, каждый должен понять что это перед тем как тратить время.

Аватар пользователя Crimea721
Crimea721(4 года 6 месяцев)

Краткое изложение сути проблемы было дано в первых абзацах..
далее следует аргументация автора,,

Какой смысл коротко пересказывать вот такой текст? Там с картинками суть переговоров с тех-поддержкой, которая 90% случаев цитирует help..
Кроме того, мне показалось важнее не конкретно его история, а показалось важным обратить внимание аудитории читателей на уничтожение функций поиска с внедрением новых алгоритмов и привлечением ИИ..

и у меня не получается сворачивать текст под "-")))

Почему я пришёл к такому выводу и что конкретно с алгоритмом не так, я здесь и расскажу.

Фатальная ошибка появилась внезапно и без предупреждения

Фатальная ошибка появилась внезапно и без предупреждения

Пару слов о себе. Меня зовут Вадим, и больше десяти лет я занимаюсь региональными СМИ, причём, где‑то на стыке журналистики и IT. С одной стороны, я всегда любил писать тексты, с другой — мне не менее интересно настраивать и дорабатывать CMS и следить за алгоритмами рекомендательных и поисковых систем. И вот, кстати, было заметно, что алгоритмы улучшались с каждым годом, и мой ответ начинающим на вопрос «как мне писать, чтобы мой текст полюбили поисковики» всё увереннее звучал так: «просто пиши хороший текст для людей, они этого от тебя и хотят». Что меня радовало, но, в случае с Яндексом, так продолжалось лишь до недавнего времени.

Просто станьте лучше

Итак, я обнаружил в Вебмастере плашку о фатальной ошибке и проблемах с безопасностью. По клику на подробности конкретики стало больше: «Малополезный контент, обилие рекламы или спам». И тут я даже как‑то обиделся. Потому что над контентом работает целая редакция, и, например, свои тексты я через полдня вижу во всех городских пабликах, а вечером мне их начинают пересказывать знакомые. То есть малополезными наши материалы назвать нельзя. Вся реклама на сайте — это один аккуратный блок Яндекс.Директа под текстом, пресс‑релизы в отдельном разделе и периодически один‑два баннера — небольших, не всплывающих и без видео.

Вдвойне обидно, что буквально за неделю до бана я чуть ли не матом послал очередного продажника, который искренне удивлялся, почему мы не хотим поставить поп‑ап с видео, ведь он «совсем маленький», и не понимал, что значит «мы не хотим издеваться над своими читателями» и как мы можем от денег отказываться. Наконец, спама у нас тоже точно не было и покупкой ссылок мы не пользовались — на нас и так активно ссылаются.

Но что‑то же заставило Яндекс убрать сайт из поиска. Хотя это мягко названо «ограничениями», фактически сайт можно найти только если искать целенаправленно его. По запросам большинство текстов из выдачи пропало, даже если вводить в поисковую строку их заголовок. Яндекс.Вебмастер ответа на вопрос «почему так случилось» не давал: по его данным в целом всё было хорошо. Индекс качества сайта даже подрос, конкретных ошибок не было. Кроме одной — но фатальной. С такими вводными я вообще перестал понимать смысл этого сервиса и его многочисленных функций.

За подсказками я обратился в техподдержку. В старые добрые времена там удавалось найти понимание и быстро выловить баги — как свои, так и самого Яндекса.

Например, однажды у того же сайта забанили турбо‑страницы только потому, что робот Яндекса неправильно распознавал расположение даты публикации. В шапке сайта у нас была указана текущая дата, робот принимал за дату публикации текста именно её, сверял с датой в RSS для турбо‑страниц и предсказуемо ругался — ведь они не сходились. В поддержке заметили этот момент, мы убрали текущую дату из шапки, робот перестал путаться и всё нормализовалось.

Но теперь стало сложнее. Ответ пришлось выуживать по крупицам. Поддержка просто копировала фразы из справки и советовала устранить причины бана, давая ссылку на страницу справки, где были перечислены вообще все возможные причины, включая мошенничество и ссылки на скачивание вирусов. Затем уверяла, что нужно просто писать качественные тексты и всё наладится. Советовала взглянуть на сайт глазами пользователя (тут опять было обидно, потому что именно так мы на него всегда и смотрели). И, наконец, с формулировкой «ваш сайт ещё недостаточно качественный» рекомендовала комплексно его улучшать. Учитывая, что количество публикаций на нём за восемь лет работы подобралось к 40 тысячам, это уже звучало как призыв просто грохнуть весь архив СМИ и начать заново.

Я перешел в наступление, требуя не копировать мне содержимое справки, а сказать, что же всё-таки не так конкретно у нас. На возражения о том, что поисковые системы своих алгоритмов не раскрывают, парировав: я не прошу алгоритмы, но, если вы обвиняете нас в нарушении правил, то скажите хоть каких. Речь же уже не о месте в выдаче, а о том, что нас фактически перестали индексировать.

Нейросеть против рерайта

И мне назвали возможную причину. Ей оказалось вышедшее в августе обновление алгоритмов поиска, призванное бороться с неоригинальным контентом. Правда, в техподдержке сразу оговорились: это возможная, но не единственная причина, и решение о бане принято «по совокупности факторов» (это тоже оказалась копия текста из справки, а не конкретно про нас). А потом снова ушли в отрицание. На просьбу проверить адекватность алгоритма быстро ответили, что всё досконально проверили и всё работает правильно. Просто нам работать надо лучше над сайтом.

Но про алгоритм — уже интересно. Судя по описанию, это нейросеть, которая умеет понимать смысл текста и поэтому замечает, когда одно и то же сказано разными словами. Вот, что про это пишут в блоге Вебмастера:

"Само по себе цитирование материалов допустимо и не является нарушением. Другое дело, если цитирование или рерайт образуют основной контент сайта, — такой ресурс не представляет реальной ценности для пользователей"

При этом ниже перечислен список того, что можно цитировать - законы, авторские описания, художественные произведения. То есть авторы алгоритма о исключениях подумали. Но заканчивается список расплывчатым "...и в других случаях, когда в результате пользователи получают дополнительную ценность".

Так вот. Я бы добавил туда дополнительный пункт. Вы можете рерайтить, если вы СМИ. Особенно если новостное.

Почему рерайт для СМИ — это норма

Всё дело в особенностях работы СМИ, тем более в регионах. Событий происходит не так уж много, поэтому, если о чём‑то написало одно издание — напишут и другие. Чего далеко ходить: можно посмотреть новостной раздел Хабра, там то же самое. Нельзя писать все новости первым, и в то же время нельзя не писать резонансную новость только потому, что первым о ней узнал не ты. У читателей будут вопросики. Но значит ли это, что пользователь не получает дополнительной ценности? Нет!

Разные СМИ делают разную подачу материала, занимаются переводом с официального языка на человеческий, ищут дополнительные подробности. Это в хорошем смысле конкуренция, которая заставляет быть лучше и не расслабляться. А ещё хорошо написанные новости дают трафик, который тянет за собой просмотры больших репортажей.

Когда‑то давно, когда я был совсем маленьким интернет‑журналистом, я думал открыть что‑то вроде регионального интернет‑журнала. Чтобы без этих ваших новостей, только большие и интересные тексты! Ожидания быстро столкнулись с реальностью: привлечь аудиторию таким образом сложно, ведь люди должны как‑то ещё оказаться на сайте, чтобы узнать, что там есть, что почитать. А вот если сочетать лонгриды с новостями — расходятся и новости, и твои репортажи.

Но новости, по мнению нового алгоритма Яндекса, это сплошной рерайт. Ведь если текст о событии умещается в пару абзацев, то его смысл будет одинаковым, даже если ты сам видел происходящее и к конкурентам не заглядывал. А значит, считает алгоритм, региональное СМИ — по умолчанию бесполезный сайт, который еще должен доказать, что ему место в поисковой выдаче.

Самое интересное здесь, что много лет Яндекс — пока в него входил сервис Яндекс.Новости, наоборот стимулировал рерайт. В топ новостей невозможно было попасть со своей уникальной темой. Алгоритм считал (и во многом справедливо), что, если об этом написал ты один, это не такая уж новость. Вот если её же написали (или переписали) твои коллеги — тогда да, добро пожаловать в топ за трафиком. Чем больше рерайта — тем выше новость в топе, ведь раз про это пишут все — значит событие значимое.

Пример новости из топа, про которую разные городские СМИ узнали из разных источников, но смысл всё равно остался тем же

Пример новости из топа, про которую разные городские СМИ узнали из разных источников, но смысл всё равно остался тем же

Но то было давно, Новости уже у другого собственника, а у Яндекса — новый алгоритм. Который просканировал всё, что накопилось за эти годы, ужаснулся количеству рерайта (новостей же по определению больше, чем репортажей) и отправил сайт в бан. Вроде бы даже логично, но.

Я напомню: сайт не состоит из рерайта. Уникального контента на сайте тоже хватает — в том числе и новостей, которые мы нашли первыми. Этот контент по‑прежнему воруют без ссылок разные паблики ВКонтакте и местные Телеграм‑каналы. Только теперь, если я ввожу в поиск цитаты из своих авторских текстов, Гугл, как прежде, выдает мне реальный первоисточник — наше СМИ, а Яндекс — только паблики. Которые просто скопировали мой текст вместе с фото, поставили к себе и теперь первые в выдаче. ВКонтакте же не забанишь.

Мой собственный текст, тему для которого я сам нашел на улице и сам же сделал фото. Гугл выдает первоисточник...

Мой собственный текст, тему для которого я сам нашел на улице и сам же сделал фото. Гугл выдает первоисточник...

А Яндекс — паблик ВКонтакте, который скопировал мой текст и поставил на мои фото свои водяные знаки, даже не указав авторство. Сайта-первоисточника в выдаче нет вообще

А Яндекс — паблик ВКонтакте, который скопировал мой текст и поставил на мои фото свои водяные знаки, даже не указав авторство. Сайта-первоисточника в выдаче нет вообще

Пошли вон из выдачи

Как я уже писал в начале, в нашем регионе из выдачи Яндекса исчезла примерно треть СМИ. Принципа, по которому алгоритму не понравились именно они, я так и не понял. Уникальный контент у них как раз есть, одним из первых под удар нейросети вообще попало издание, которое в регионе известно большими авторскими репортажами. У него проблемы возникли даже раньше, чем у нас. Из тенденций заметил только, что в выдаче остались все государственные телекомпании (тут, возможно, роль сыграло видео) и все издания-новички (кому еще не больше лет пяти). Последние, предполагаю, ещё просто не успели достаточно нарерайтить.

Что мы делаем сейчас? Ищем пуговицу. Правим всякие мелочи, которые могут потенциально не нравиться поисковику, вроде закрытых и открытых от индексации разделов. Уже отказались от нескольких рекламодателей, чтобы уменьшить долю рекламных текстов на сайте (хотя они и так не мешают пользователям, но другой рекламы, от которой можно было бы отказаться, у нас и нет, если только Яндекс не ругается на свой Директ). И надеемся, что Яндекс всё‑таки поправит свои алгоритмы, или хотя бы объяснит, что ему не так и что нам надо в этой ситуации делать.

Аватар пользователя alexsword
alexsword(13 лет 1 месяц)

Вся суть должна быть понятна без захода по левым ссылкам.

Как минимум на Пульсе, куда и вы вынесли статью. 

По указанной причине я убрал, а в комменты дал пояснение почему.

Аватар пользователя А.Е.А.
А.Е.А.(2 года 8 месяцев)

Яндекс /он же Херня/ давненько уже с катушек слетел...

Мой канал на Я давным давно монетизирован /так случилось случайно несколько лет назад/ , не является ни источником дохода, ни любимой игрушкой... так, баловства ради, типо хобби...

Так вот на мой запрос почему мол, просмотров и собственно показов стало кратно меньше мне ничтоже сумняшеся ответили, что так и так, в приоритете уникальный контент / стихи - куда уникальнее может быть/ на второй запрос, типо чё вы там курите, пришёл просто убийственный ответ: контент помимо уникальности нужно выкладывать как можно чаще... я выпал в осадок и с тех пор им не пишу, чтобы шаблон не порвался 😎

Аватар пользователя DMatrix
DMatrix(8 лет 10 месяцев)

Поисковики занимаются этим уже лет 15 как.

У меня когда-то было несколько городских сайтов, они годами появлялись на первой строчке во всех поисковиках.

Потом, в один прекрасный момент, они рухнули в поиске, на их место пришли сайты Шкулев медиа.

Да, и предупреждения о якобы "небезопасности" - стандартный прием поисковиков по задвиганию сайтов в ж-пу.

Аватар пользователя DjSens
DjSens(6 лет 3 месяца)

когда недовольных много - они объединяются, скидываются и делают альтернативу,   так что не надо плакать, надо сделать свой честный поисковик,     сейчас у людей дома стоят более мощные компы чем были первые серверы яндекса и рамблера

Аватар пользователя Crimea721
Crimea721(4 года 6 месяцев)

вот это  - тема!!!!
предлагаю объединяться!!!
правда, мои знания не позволяют создать новый поисковик с нуля...

есть к кому обратиться?

Аватар пользователя DjSens
DjSens(6 лет 3 месяца)

забесплатно никто делать не будет,   а "за деньги - да"

хорошие программисты "за деньги" есть на форуме cyberforum.ru

Аватар пользователя AndV
AndV(4 года 8 месяцев)

Ну вот был у нас государственный поисковик "Спутник". Не взлетело. По слухам потратили на него более 2 миллиардов рублей. Ну и откуда простым гражданам взять такие суммы ?

Аватар пользователя DjSens
DjSens(6 лет 3 месяца)

ну знаешь...  если постараться - можно и за 20 миллиардов сделать вещь которая не взлетит....

а первые серверы поисковиков, как я уже писал, были слабее современных домашних компов,    в начале запросов будет не много, справится сервер за 2000 рублей в месяц,   а дальше заинтересованные лица пусть ежемесячно скидываются

Аватар пользователя Не могу вспомнить

Можно уточнить для примера список этих "самых качественных СМИ региона"?  Может шкулевская падаль там сплошная?

Аватар пользователя Lokki
Lokki(9 лет 8 месяцев)

Ну, в поисках давно лендинги.

Немного спасает персонализация, но если ищешь что-то новое - полный тухляк.