Вопрос довольно интересный. Возник при написании предыдущей статьи. Там мельком говорилось про роботов Яндекса (поиск новостей для определенного манипулирования читателями).
Ресурс автошок предначен для анализа информационного поля(как я понимаю) . Делится просто на первый взгляд, поиск интересных новостей для читателей и вторая задача опровержения дезинформации.
И мы приходим к мысли что похожую задачу для Яндекса решает робот. Если смысл анализировать новости с помощью алгоритма(методички) или это принесет больше вреда?
Попробуем взять пример из мира техники (где есть числовое измерение, по есть процесс и результат можно определить и вычислить) в отличии гуманитариев где все расплывчато и эмоционнально.
Например господин Форд создал конвейер по сборке автомобилей( и что самое удивительное для создания сложного на тот момент механизма он умудрился применять работников со старым уровней знаний и навыков). Что позволило получить авто с нужным качеством не только у Форда, а в любой цепочке изготовление сложного продукта. Это проверка качества или система ОТК.
Глянул что нам Яндекс раскажет о ОТК.
Обязанности контролера ОТК
В должностные обязанности контролера ОТК входит:
- Выходной контроль готовых товаров.
- Сверка реальных параметров выпускаемой продукции с эталонными показателями, указанными в технической документации, чертежах, ГОСТах.
- Оформление сопроводительной документации — сертификатов, дефектных ведомостей, паспортов качества.
- Проверка качества используемого сырья.
- Выявление технологических несоответствий и причин возникновения брака.
- Выдвижение идей по модернизации производства.
Иногда в функции контролера ОТК также может входить работа с рекламациями (жалобами клиентов).
Требования к контролеру ОТК
Основные требования к контролеру ОТК таковы:
- Среднетехническое или высшее образование.
- Опыт работы от 1 года.
- Знание технологии производства, ГОСТов.
- Умение читать чертежи и проектную документацию.
- Навыки управления контрольно-измерительными приборами.
- Внимание к деталям.
Иногда от специалиста может требоваться хорошее зрение и отличная координация движений, а также дополнительное образование (зависит от специфики производства).
Начинал писать имея совсем другое направление обсуждение темы. Но сравнение с инженерным решением похожей задачи на корню убило тему. Версия получается доказана не только наличием ботов в инетах, но и параллельным процессом создания сложных продуктов в другой деятельности человечества.
Вернемся к первоначальному рассмотрению задачи, забыв пример свыше.
Какие методы познания приходят в голову навскидку для определения реальной информации?
Наверно так
- Исторический опыт
- Научный метод
- человеческий опыт
Каждый из этих методов может дать отрицательный результат(не достоверное отражение реальности).
Первый и третий пункт понятен всем. Второй смотрим исходя из 1 и 2 пункта из инета
Познание. Понятие, формы и методы познания.
Теория познания.
Теория познания впервые была упомянута Платоном в его книге «Государство». Тогда он выделил два вида познания – чувственное и умственное, и эта теория сохранилась по сей день. Познание – это процесс приобретения знаний об окружающем мире, его закономерностях и явлениях.
В структуре познания два элемента:
- субъект («познающий» - человек, научное общество);
- объект («познаваемое» - природа, ее явления, социальные явления, люди, предметы и т.д.).
Методы познания.
Методы познания обобщают по двум уровням: эмпирический уровень познания и теоретический уровень.
Эмпирические методы:
- Наблюдение (изучение объекта без вмешательства).
- Эксперимент (изучение происходит в контролируемой среде).
- Измерение (измерение степени величины объекта, или веса, скорости, продолжительности и т.д.).
- Сравнение (сопоставление сходств и различий объектов).
- Анализ. Мысленный или практический (ручной) процесс разделения предмета или явления на составляющие, разборка и осмотр компонентов.
- Синтез. Обратный процесс – объединение компонентов в целое, выявление связей между ними.
- Классификация. Разложение предметов или явлений в группы по определенным признакам.
- Сравнение. Обнаружение различий и сходств в сравниваемых элементах.
- Обобщение. Менее детальный синтез – объединение по общим признакам без выявления связей. Этот процесс не всегда отделяют от синтеза.
- Конкретизация. Процесс извлечения частного из общего, уточнение для лучшего понимания.
- Абстрагирование. Рассмотрение только одной какой-то стороны предмета или явления, так как остальные не представляют интереса.
- Аналогия (выявление подобных явлений, сходств), более расширенный метод познания, чем сравнение, так как включает поиски похожих явлений во временном периоде.
- Дедукция (движение от общего к частному, метод познания, в котором логический вывод выходит из целой цепочки умозаключений), - в жизни эта разновидность логики стала популярна благодаря Артуру Конану Дойлу.
- Индукция – движение от фактов к общему.
- Идеализация – создание понятий для явлений и объектов, которых нет в реальности, но есть подобия (например, идеальная жидкость в гидродинамике).
- Моделирование – создание, а затем изучение модели чего-либо (например, компьютерная модель солнечной системы).
- Формализация – изображение объекта в виде знаков, символов (химические формулы).
Формы познания.
Формы познания (некоторые психологические школы называют просто видами познания) бывают следующие:
- Научное познание. Вид познания, основанный на логике, научном подходе, выводах; также называют рациональным познанием.
- Творческое или художественное познание. (Оно же – искусство). Этот вид познания отражает окружающий мир с помощью художественных образов и символов.
- Философское познание. Оно заключается в стремлении объяснить окружающую действительность, место, которое в ней занимает человек, и то, каким оно должно быть.
- Религиозное познание. Религиозное познание часто относят к разновидности самопознания. Объектом изучения является Бог и его связь с человеком, влияние Бога на человека, а также моральные устои, характерные данной религии. Интересный парадокс религиозного познания: субъект (человек) изучает объект (Бог), который выступает в роли субъекта (Бог), создавшего объект (человека и весь мир вообще).
- Мифологическое познание. Познание, свойственное первобытным культурам. Способ познания у людей, еще не начавших отделять себя от окружающего мира, отождествлявших сложные явления и понятия с богами, высшими силами.
- Самопознание. Познание собственных психических и физических свойств, самоосмысление. Основные способы – самоанализ, самонаблюдение, формирование собственной личности, сравнение себя с другими людьми.
Подведем итог: познание – это способность человека умственно воспринимать внешнюю информацию, ее перерабатывать и делать из нее выводы. Основная цель познания заключается как в овладении природой, так и в совершенствовании самого человека. Кроме того, многие авторы видят цель познания в стремлении человека к истине.
Источник https://www.calc.ru/Poznaniye-Ponyatiye-Formy-I-Metody-Poznaniya.html
Тут стоит обратить внимание людям пытающимся внедрить урок Православия в школу(пункт 4 форма познания). На этой культуре построена музыка, живопись, философия и даже научное познание. Может быть я не прав, но для меня очевидно как должен быть написан учебник.
Для бонуса песня Черный кофе «Листья»( «Деревянные церкви Руси» не предлагаю из-за очевидности) https://www.youtube.com/watch?v=D351EBTMTDg&list=RDEt36tCDjSaw&index=2 У госпожи Толстой была версия стихов(искать долго).
Добавлю, священники вспоминают, что в царской России крестьяне могли «читать» иконы.
Возвращаемся к инженерному методу познанию инфополя. Если есть специалисты условно ОТК, хотелось бы увидеть примерную схему перенесенную на уровень небольшого ресурса( наверно они отличаются – личный блог, ресурс компании, ресурс государства). И оценка стоит ли вообще это делать. При не правильной оценке есть вероятность уничтожения ресурса.
Для админов – статья написана для обсуждения и не является попыткой навязать новые методы управление ресурсом.
Добавлено. Забыл, программисты тоже могут предложить свою модель.
Комментарии
Робот может сделать тот алгоритм, что хорошо описан и проверен на практике. Например, наш рейтинг, основанный на подписках и рассчитываемый индивидуально для каждого читателя.
Если есть идеи, касающиеся конкретных алгоритмов, лучше обсуждать их, а не абстрактную автоматизацию.
//Если есть идеи, касающиеся конкретных алгоритмов, лучше обсуждать их, а не абстрактную автоматизацию.//
речь о другом. О навыках поиска информации полученных из методики ( например получение из уважаемого ресурса однозначно весомее чем из желтой прессы).
Нет такого понятия как уважаемый ресурс. Это контекстно зависимое понятие. Для кого-то "эхо дождя" уважаемый ресурс. А кто-то за репост RT предлагает сажать на пол года.
На АШ оценка информации - ответственность редакторов того или иного раздела.
Да, это субъективно.
Но утверждаю, любой автоматический метод уязвим для манипуляций. Поэтому агрегаторы и решили работать только с СМИ, когда им предъявили за обьективность. Они ее не могут обеспечить, вот и переложили вопрос на СМИ, то есть на тех же редакторов.
А зачем тут автоматический сбор новостей? Тут вроде все на хомяковой движухе не плохо стоит. Единственное наверно что можно поставить это автоматическое выделение главной мысли в статье и отсев клонов по смыслу.
В результате применённого метода мы должны получить результат. Какой результат вы хотите получить изучая Новости?
получение максимальной обьективной информации из информационного поля и обратная задача фильтрование ложной.
То есть мы говорим об анализе на предмет достоверности?
цель может ставиться любая. Можно использовать как поиск антипропаганды, под какую цель будет создан алгоритм.Этим занимаются не только государства, но и бизнес. Достоверность по умолчанию( иначе это бессмысленно).
Ну так есть такие инструменты.
В частности в России этим Ашманов и партнёры занимается
https://nstarikov.ru/blog/53443
наверняка. Просто меня на писательство потянуло. Насколько знаю у него ученая степень, парень наверняка работает на высоком уровне.
Творчество это хорошо.
Просто за такую работу платят деньги, и приличные. Это помогает принятию серьёзных решений, люди отвечают за результаты и поэтому там работают профи, особо не отсвечивающие.
Пересекаются на курсах "повышения квалификации" все при деле :)
Если я правильно понял о чём речь - для начала нужно минимум разобрать текст (семантика и не простая) и проверить логическую связность новости. Проблема в том что даже если такое удастся сделать - ничего хорошего не получится, тк уже и в серьёзных изданиях по серьёзным инфоповодам статьи пишутся не разбирающимися в теме и тяп-ляп. Те реальный инфоповод есть, но может быть описан с дырами в логике и/или ошибками.
Что именно вы хотите получить из таких новостей, используя бигдату или статистику, если нет абсолютно достоверных источников?
*В том смысле что половина будет фильтроваться как "имеет логические ошибки и некорректно выстроено" а из оставшихся - будет "отсутствуют факты для проверки". Создавать рейтинг доверенности источников и верить взвешенному большинству? Тоже не выход.
//Если я правильно понял о чём речь - для начала нужно минимум разобрать текст (семантика и не простая) и проверить логическую связность новости.//
в эти дебри не лез. Не знаю эту сферу, чтоб обсуждать. Есть методики при сборке машины, самолета... для устранения брака и они должны работать при обработке информации. Мое предложение специалистам высказать мнение на этот счет.
Мы создаём контент или его анализируем?
А анализ... Скриптами и правилами можно выделить подозрительные (искусственная раскрутка новости, ссылка на ложные источники, циклические ссылки, оценка качества источника... в более сложной системе - можно даже искать логические противоречия в самой новости и, например опровержения в остальном инфополе) но это позволяет делать только негативный отбор.
А вот позитивный - те сказать: "да, это достоверная новость", "да, это естественная волна вирусного распространения", "да, это первоисточник, первым донёсший что-то уникальное" - практически не реально, если не полагаться на "авторитетные" источники.
Постфактум - что-то можно придумать. В реальном времени без собственных источников информации у системы - крайне вряд ли.
//А вот позитивный - те сказать: "да, это достоверная новость", "да, это естественная волна вирусного распространения", "да, это первоисточник, первым донёсший что-то уникальное" - практически не реально, если не полагаться на "авторитетные" источники.//
то есть сделать авто без брака не реально?
Ещё раз. Мы создаём контент или анализируем уже существующий? Дать гарантию что собранный на коленке не серийный автомобиль проедет следующие 500км - невозможно, если не ты его собирал. Сертифицированные - держатся на авторитете конкретного автоконцерна и непростой процедуре сертификации. И то - встречаются смертельные недоработки и отзывы машин даже при кровной заинтересованности создателей в идеальном качестве (в отличие от очень косвенного интереса СМИ в достоверности/взвешенности информации).
Попробуйте зарегистрировать самодельное авто. Для полноты картинки представьте что не существует ни гостов ни стандартов ни на агрегаты ни даже на материалы конструкции. А теперь - поставьте себя на место сертифицирующего.
Половина поста про ОТК(отдел технического контроля), его задача контроль качества.
Не претендуя на что то важное в посте, высказал мысль (скорее всего это уже сказано не один раз).
Можно ли перенести методы, способы контроля качества применимые при создание сложных машин для поиска истинности информации( задачи по смыслу общая но реализуемая в разных областях).
Проще говоря специалист по ОТК промышленного производства показывает систему контроля(методы и способы), а программист закладывает в свою систему поиска(оба ищут брак). И вопрос задавался можно ли это сделать и нужно ли это делать? Скорее всего ответ уже есть, просто я не нашел.
Вы предлагаете создать универсального специалиста ОТК который мог бы придти на любое чужое производство и не имея никакой информации о местном техпроцессе мог бы что-то проконтролировать. При том местные - не имеют никакого желания передавать ему какую-либо документацию или показывать техпроцесс.
Очевидные косяки - можно увидеть, не очевидные - нет. Давать какую-то гарантию - ?
Кроме того - предлагаете заменить осмотром конечного продукта все уровни, пронизывающие производство на каждом этапе (аналогии для журналистики подобрать можно):
Основная проблема - недостаток входных данных. Сформулируйте какими данными обладаете и что из них хотите получить. Дальше - да, работа программистов. Можно собирать косвенные признаки, но гарантии они не дадут.
Более того - нет ни эталонов ни ГОСТов, которые прописаны для ОТК в вашем же посте.
*ГОСТы на качество инфомрации, которым следовали бы СМИ... Хотелось бы, но получается то-ли утопия то-ли антиутопия.
.//Вы предлагаете создать универсального специалиста ОТК который мог бы придти на любое чужое производство и не имея никакой информации о местном техпроцессе мог бы что-то проконтролировать.//
нет.
Предположим что знаний о поиске достоверной информации полный ноль(условно). Нам нужно его создать. Экономически выгодно взять, что уже проверено(отсекается все непонятные варианты) и внедрить что используется в другой области. Крнечно это не перенос дословно ( самолет и инфополе разные обьекты). Настолько разные, что возможно это не работает в принципе.
Нужен инструмент типа перевода ( как у переводчиков с разных языков). Скорей всего это не работает, иначе было бы уже давно известно.
Это что то из области натуральной философии( человек увидел в природе пчелиные соты и создал по аналогу для себя вещь). Опять же не понятно для меня работает в сложных областях производства.
Просто озвучил логическую задачу для обсуждения не будучи специалистом в обоих областях( производство и инфополе).
Вы пытаетесь перенести метод. Самая первая проверка - наличие данных с которыми этот метод должен работать. В ОТК есть все данные по производству + возможны дополнительные экспертизы. О производстве новости неизвестно ничего, кроме её наличия.
И даже при наличии всех данных - ОТК даёт только вероятность. Иначе ракеты бы не падали. А уж при настолько размытых параметрах как для новостей... Больше исходных данных - больше достоверность, больше значимых неизвестных - достоверность меньше.
//Вы пытаетесь перенести метод.//
Самое слабое место в озвученной версии, что перенос с физически осязаемого предмета на химические биологические процессы в мозге. То есть чисто технические замеры с использование приборов ( например измерение зазоров деталей) надо заменять на эмоции людей.
// О производстве новости неизвестно ничего, кроме её наличия.//
Скромно промолчим, книга "психология народов и масс" не согласна с этим( это если сми рассматривать как элемент системы управления, поиск дезы небольшой элемент этой системы).
//И даже при наличии всех данных - ОТК даёт только вероятность.//
100% только у Бога, а качество производства машин улучшается с каждым годом. Вы настолько занудны(без обид), что становиться интересно, может в этой версии правда есть , что то интересное?
Профдеформация, случается, извиняюсь)
Можете пояснить что имеете в виду? Новости, особенно заказные пишутся не на эмоциях, а повлиять на эмоции пытаются все, даже достоверными новостями. Эмоциональные акценты не определяют достоверна информация или нет.
Есть, и очень интересное, но для этого (имхо) нужен почти готовый слабый ИИ, довольно много знающий об окружающем мире. Придумать за что можно зацепиться при анализе, ещё ступенька к ИИ - и есть самое интересное.
//Профдеформация, случается, извиняюсь)//
не важно, считаю хорошим качеством.
По время обсуждения пришла мысль зачем мучиться с переводом техническое устройство- человек, когда уже есть человек- человек. Это театр и кино. Способы достижения одинаковые(правда тут создание новости, а не контроль). Вызвать желаемую эмоцию.
Читал где то про технологию Голливуда которую вроде бы стали применять с сериала "Необитаемый Остров". Актерам не дают читать сценарий, дают только его текст(вероятно с указанием только цели отрывка который он играет). Актер обладая базовыми знаниями выполняет роль. То есть производство фильма поставлено на конвейер, где каждый актер просто крутит гайки как рабочий Форда. Замысел понятен только режиссеру, сценаристу( кому надо знать чтоб получился продукт). Возможно даже создают компьютерную модель( алгоритм снятия фильма где все роли жестко обозначены). Звучит это не качественно( слухи в интернете), но почему то правдоподобно для меня. Смотреть на подготовку в актерских училищах не стоит, но ради интереса если конвейер в Голливуде существует, это подтверждает версию возможности переноса( или создания с нуля но по тем же принципам, что и машины).
Похоже цель контроля в схеме человек-человек не видно, поэтому опять возвращаемся к ОТК.
Логичным выглядит перейти к железу. Взять систему контроля сложного устройства( не понятно насколько сложного. На вскидку, конечного сложного производства типа машина, самолет наверно соответствует уровню производства новостей раздела экономика, политика), что есть в открытом доступе(лучше двух разных фирм с большой разницей качества) и попробовать построить блок схему и алгоритм работы ОТК.
Второй шаг строить таблицу перевода( например как шкалу Цельсия в Фаренгейта). Это таблица свойств одного рода. Правильней так, как киловатт в лошадиную силу ( можно назвать схема механизм?-биологический обьект?).
Например, качество деталей поставляемых на завод = это качество отдельных фактов, событий(случайных, созданных). Наверно самый сложное это таблица соответствия механизм( таблица похоже будет как словари перевода с разных языков, для экономики один, или для поиска новостей про сланцы другой). Но тогда вроде проще и дешевле позвать специалиста по экономике и получить анализ.
И пытаться опытным путем опробовать поиск брака в инете. Получается это также попытка прогноза?
Ниже статью еще не читал.
написанное сверху фигня. Завтра попробую сформулировать.
Взял для примера часто разбираемый пример на ресурсе - добыча сланцев в США. Кроме технических параметров которые узнал на ресурсе 1)
там присутствует 1) добыча за счет печатного станка(экономическое местное устройство) 2) просто бытовой случай ( например за взятку разрешили разработку). Получается отраслевые словари не подходят. Или верней это только часть анализа. Похоже надо 2 и более параметра
Посмотрев блок схемы ОТК для разных отраслей(укладка асфальта или системы отопления) настолько сильно отличаются, что мысли об едином алгоритме просто не возможны. Но похоже к словарям свой алгоритм правильное направление.
отдельный алгоритм человеческих чувств как человеческий фактор? (дописать потом)
О, это вы за ещё более сложное схватились. Это уже анализ не определённой новости, а явления, поиск первопричин и логический вывод. Тут потребуется полная формализация области знаний и огромная база фактов. Те есть добыча и отчёты не все ложные, но... По сути тут понадобится ИИ или как минимум экспертная система более квалифицированная чем все "эксперты" что ратовали за сланцы.
Вырожденный пример того что должна уметь система - отличить новость с первоапрельской шуткой от обычной (не используя знание о том что новость вышла первого апреля). Люди и то не все сходу различают. А если ещё намеренное искажение стиля в конце убрать, то и вообще не знаю.
Можно сделать фильтр которому "хочется верить" новостям с определённой окраской/в определённом миропонимании, но если система не понимает всех факторов и не может обучаться, узнавая новые то получатся розовые очки а не поиск информации.
Как выглядит тема сейчас с точки зрения информатики:
http://cyberleninka.ru/article/n/avtomatizirovannyy-analiz-novostnogo-potoka-iz-seti-internet-s-uchetom-semantiki-tekstov
Презентация по разбору текста
Те можно автоматически разобрать что сказано и кем сказано. Какую аналитику можно из этого вытащить?
1) Значимость новости:
Те - количество человек это прочитавших, распространённость (и влияние) новости.
2) По повторяющимся темам (рейтинги на бирже, информация о компании) - сложная математика/статистика - модели рядов, с попыткой предсказать следующее значение.
2.1) Статистика/ряды не по конкретной новости а по тематике новостей (Ашманов, упоминавшийся тут), анализ не новости а направления потока новостей.
3) Из первого - можно составить рейтинг доверенности/авторитетности источников и давать оценку на основе авторитета источников подтверждающих новость (что интересно, информации о таком использовании не нашел). Но это система на доверии, и если авторитетные издания начинают тиражировать дезу - такая система никак не поможет.
3.1) Кластеризация групп источников - те вот такая группа СМИ говорит об этом так, вот такая группа СМИ - эдак.
Вот этот вариант, кстати, может быть весьма интересным - если сразу ставить несколько отметок на новость, кем подтверждается, кем (пока) нет, кем опровергается.
4) То что предлагаете вы: Проверка достоверности, на основе формальной логики(?) и понимания новости системой(?) на основе знания системы о реальных предыдущих фактах(?). В открытом доступе информации по такому я не нашел (может плохо искал). Может в лабораториях гугла или яндекса подобное есть, но задача очень не тривиальная.
У Вас есть критерий определения фейк/не фейк?
Все уже 2 тысячи лет назад придумано. "Понятие истины – сложно и противоречиво. У разных философов, в разных религиях оно свое. Первое определение истины дал Аристотель, и оно стало общепринятым: истина – это единство мышления и бытия. Расшифрую: если ты о чем-то думаешь, и твои мысли соответствуют действительности, то это истина."
В бытовом смысле наверно это "наибольшее количество информации за промежуток времени" для достижения своих целей.
Аааа... вонанокак!
Новое - это непознанное, могут ли новости быть непознанным? Новости сегодня - это хаос из кусочков познанного, сделанного людьми для людей и поэтому толку от них, в лучшем случае - никакого, а в худшем - один вред. Вот и весь анализ.
http://www.mediascope.ru/node/1071
Прочтите может заинтересует.
Не стала читать весь текст. Некий анализ новостного потока давно уже предложил Игорь Ашманов. Если тут кто-то не в курсе, кто он такой, то он первый, кто занялся SEO + некогда директор Рамблера, еще тогда, когда Яндекса в помени не было и он только разрабатывался. А так же он же муж Натальи Касперской и друг или знакомый приятель Германа Клименко, который сейчас является советником президента по IT вопросам.
Вот ссылка http://www.ci2b.info/o-proekte/texnologii/01-sbor-informacii/monitoring-...
Видео тоже где-то на просторах рунета должно быть.
В неком виде сортировка контента под конкретного человека сейчас реализована в Яндекс.Браузере в Дзен.
Update
Видео нашла
У Ашманова видел только, что он определяет искусственная новость или нет. Он вроде работает на бизнес для продвижения товара, рассказывать как он работает конечно не будет давать в общий доступ.
А Вы напишите ему свой вопрос, он ответит(стопроцентно, проверено), ответ выложите здесь, на АШ.
В России на данный момент команды специалистов лучше Ашманова нет, КМК.
АПД заодно ценник узнаем.....
Вопрос анализа текста беспокоит людей уже лет 40, может все 50, думаю, что стоит начать с криптографии, там как раз были заложены основы анализа текста.
Но нам нужна не голая статистика, сколько букв пробелов, и прочего. Для этого можно любую книгу прогнать для сбора статистики. Для этого нужен разбор семантики, те раздел смыслов.
Например, как в старом анекдоте, "Абрам - дурак, ну извините..."
Пишется много статей, защищается десятки диссертаций, но пока особых успехов нет...
О чем разговор то? Полностью автоматический анализ требуемого среза новостного потока стоит 40 000 руб в месяц. Если новости на собачьем то 80 -120 000 руб.
Для мелких заказав цена договорная.
Короче заплати и лети )))
А можно поподробнее? На что анализ и возможен ли в реальном времени или только по массиву данных постфактум?
*Вообще - в первую очередь системы анализа новостей реального времени должны быть у трейдеров на бирже. Если есть какая-то информация - подскажите)
Техническая задержка около 2х минут. Если нужен анализ важности и достоверности новости, то на это уходит 15-60 минут. Если новости на собачьем, то плюс время на перевод статьи. Переводятся только самые актуальные и важные. Обычно это 2-3 новости в день по одной узкой теме.
Очень интересно. Можно название компании?
*Зацепил поиском GARCH модели, но не уверен что про то речь.
А чего вы хотите?
Узнать кто это настолько оторвался от конкурентов) Тот же Яндекс выставил такой сервис относительно недавно, но не предлагает анализ достоверности, только "значимость" по количеству просмотров.
Яндекс оценивает "значимость" статьи по числу просмотров и лайков. Основываясь на явоей Я.Метрике и данных полученных непосредственно от сайтов. Мы идем другим путем. Пусики и желтые новости всегда перелайкуют нормальные. Так что это тупиковый подход.
Достоверность оценивать трудно, на каждую тему нужно настраиваться. Чтоб проколов много не было.
Вы круты. Без всяких шуток.
Вот, о чём я и пытаюсь сказать. Есть два реализуемых варианта: Первый - учитывать авторитетность источника в конкретной области. Второй - создавать фактически экспертную систему по заданной тематике. (Второй - имхо, получится что-то запредельно дорогое в создании. Но если единая система сможет работать на несколько областей - это очень серьёзный прорыв.)
Чисто на анализе текста с нуля, без дополнительной информации - я не вижу как можно что-то проверять на достоверность. А проверять весь поток новостей, особенно в размытых предметных областях, например "политика" - вообще сумасшедшей сложности проект.
Оценивать достоверность через "авторитетные источники" бесполезно. Это слишком лично всегда. Создать экспертную систему можно, но это достаточно бесполезно. Многие достоверные и очень важные новости содержат страшные косяки. Например новость о начале нашей операции в Сирии содержала информацию о переброски в Хмеймим Миг-31. В целом по новостям косяки ходят табуном. Про те же сланцы пишут в 80% случаев откровенный бред.
Короче приходиться работать с тем что есть. Сложность настройки на тему связанна с тем что любая новость дает проекцию только на часть сети, а сканировать всю сеть даже с частотой в 24 часа нереально. Нужно вырезать подходящий сегмент чтобы обходить его хотя бы 1 раз в час. Этот срез всегда очень сильно зависит от тематики. Да не все модели оценки достоверности хорошо работают со всеми тематиками.