По официальной версии целью проекта GDELT, поддерживаемого подразделением Google Ideas, является создание открытого, обновляемого в режиме реального времени каталога мировых новостей и предоставление доступа к этому каталогу для всех желающих. Архив проекта GDELT находится в ряду крупнейших открытых баз данных, посвященных мировому сообществу.
Что такое проект GDELT?
Проект GDELT использует огромный каталог мировых новостных ресурсов, созданный в сотрудничестве с партнерами по всему миру, для осуществления мониторинга в реальном времени каждого доступного печатного, вещательного и онлайн новостного репортажа, выпущенного где-либо в мире, уделяя особое внимание региональным новостям на региональных зыках. Каждая статья сначала переводится на английский язык с помощью машинного переводчика (небольшая часть материалов переводится человеком), а затем обрабатывается набором алгоритмов. Применяемые алгоритмы способны идентифицировать сотни категорий событий (от протестов до призывов к миру), тысячи эмоций (от тревоги до воодушевления), миллионы тем (от прав женщин до обеспечения доступа к питьевой воде), а также местоположения, людей, организации и другие индикаторы.
Эти систематизированные метаданные (а не сам исходный текст статей) затем публикуются в форме свободно доступного потока данных, обновляющегося каждые 15 минут и представляющего собой многоязычный аннотированный каталог мировых новостей. Кроме того, база данных содержит обработанные таким же образом различные исторические архивы: архив, охватывающий 70 лет и содержащий 21 миллиард слов из академической литературы, включая материалы JSTOR, DTIC и Internet Archive; отчеты о правах человека за 50 лет; полмиллиона часов американских телевизионных новостей; собрание книг за 200 лет.
Что такое Google BigQuery?
Google BigQuery – это облачная платформа, предназначенная для анализа огромных база данных, таких как GDELT. BigQuery использует инфраструктуру Google для обслуживания интерактивных SQL-запросов к наборам данных, имеющим объем порядка нескольких петабайтов и содержащим десятки триллионов строк. Запросы передаются посредством REST API и выражаются в виде стандартного SQL, а также могут быть расширены с помощью определяемых пользователем JavaScript-функций для реализации сложных запросов. Каждый день пользователи загружают в BigQuery сотни терабайтов новых данных (как пакетных, так и потоковых), которые сразу же становятся доступны для запросов. Для обработки одного запроса могут быть выделены тысячи процессоров, как следствие, пользователь получает быстрый результат без необходимости индексирования или секционирования данных.
BigQuery и GDELT в действии
BigQuery позволяет исследовать огромные архивы GDELT почти в реальном времени, интерактивно выполняя запросы, анализ и визуализацию. Часто BigQuery используется для анализа тенденций протестов или конфликтов в данной стране и позволяет поместить текущие события в исторический контекст. Например, на рисунке ниже представлена диаграмма нестабильности в Чили начиная с 1979 года. Особо выделяется восстание против режима Пиночета с 1983 по 1988 и его арест десятилетие спустя в октябре 1998. После этого в стране наблюдается относительная стабильность. Аналогичный подход недавно был использован для сравнения тенденций, свойственных протестам в Европейском союзе, имевшим место за последние 40 лет. Данный тип анализа является очень мощным инструментом, потому что позволяет охватить миллионы мировых событий, произошедших в течение десятилетий, и быстро сгенерировать хронологическую количественную характеристику нестабильности в той или иной стране, которая с большой точность показывает периоды нарастаний и спадов протестной активности.
Рисунок 1. Хронология нестабильности в Чили глазами GDELT и BigQuery (ось Y представляет «интенсивность» нестабильности).
Другой набор данных GDELT содержит имена людей, названия организаций, местоположения, темы и эмоции, найденные в новостных статьях. Благодаря BigQuery, с помощью всего лишь одной строки SQL-кода было просканировано 150 миллионов новостных статей, и сформирован список из 1500 пар имен, чаще всего упоминавшихся совместно в новостях, касающихся референдума по финансовой политике в Греции. Эта операция была выполнена за несколько секунд. На выходе был создан CSV-файл, предназначенный для визуализации с помощью Gephi. Полученная в результате сетевая диаграмма представлена ниже. Данный тип диаграмм позволяет пользователю быстро выяснить, как та или иная тема освещалась в новостях, какие личности являлись центральными фигурами, и как они были связаны друг с другом. В данном случае решающую роль сыграли следующие европейские лидеры: Ангела Меркель и Вольфганг Шойбле от Германии, Жан-Клод Юнкер от Люксембурга и Франсуа Олланд от Франции.
Рисунок 2. Сетевая диаграмма персон, чаще всего упоминавшихся совместно в новостных репортажах в Греции в период с 1 по 15 июля 2015 года.
Еще одним примером использования BigQuery совместно с GDELT является отображение на карте местоположений, упоминаемых в контексте некоторой темы. BigQuery поддерживает определяемые пользователем функции, что позволяет создавать JavaScript-приложения любой сложности. Например, можно реализовать вложенные циклы и сложную фильтрацию, которая ассоциирует каждую тему с ее ближайшим местоположением в документе. Подобные JavaScript-приложения выполняются, как часть запроса, что позволяет выполнять всю аналитику полностью в BigQuery. На рисунке ниже с помощью CartoDB визуализированы все местоположения, упоминаемые в контексте преступлений против дикой природы в период с февраля по июнь 2015 года. Эта карта была создана, чтобы показать, насколько широко распространены подобные преступления. Другие визуализации, созданные с помощью GDELT и BigQuery, позволяют анализировать географию таких тем, как противотанковое оружие, изменение климата, долговой кризис в Греции, Исламское государство, а также местоположения, упоминаемые в книгах за 200 лет.
Рисунок 3. Местоположения, упомянутые в контексте преступлений против дикой природы в мировых новостях в период с февраля по июнь 2015 года.
Сотрудники исследовательского подразделения банка BBVA выполнили ряд исследований и визуализаций с помощью GDELT и BigQuery. Среди них карта миграционного кризиса в Европе, представленная ниже, а также моделирование динамики социальных волнений. На карте миграционного кризиса показаны местоположения притока (оранжевый) и оттока (красный) беженцев в Европе и Северной Африке в течение первых шести месяцев 2015 года. Подобные карты, визуализирующие тенденции на основе миллионов новостных сообщений, позволяют оценить масштабы и географию возникающих кризисов, способных спровоцировать серьезную нестабильность.
Рисунок 4. Карта притока и оттока беженцев в Европе и Северной Африке в период с 14 января по 15 июня 2015 года.
Комментарии
Помню, был у нас несколько лет назад проект, использующий раннюю версию GDELT. Пытались на основе новостей предсказывать события всякие нехорошие.
Выяснилось, что как предсказательный датасет - оно не очень. Но как иллюстративный для уже прошедших событий и устоявшихся взаимоотношений - более чем!
Добывание из открытых источников. Ничего нового.
Электронный каталог новостей и их история ...
Мммм ...
Какие чудесные возможности для подтасовок и манипуляций !
Карта Израиля кишит новостями. Показан Заказчик и Аггрегатор.
Зато гидроразрывы в Северной Америке - спасение природы.
Голос #ИмперииЛжи
По Украине прямо показательные карты, выведены картинками, много работали люди ...
---------------------------------------------------------------------------------------------------------------------------------------
Про создание фейковых новостей нейросетями:
"Ученые из Института Аллена по изучению ИИ совместно с Вашингтонским университетом создали генерирующую фейк-ньюс нейросеть. Программа на основе анализа текстов Wall Street Journal (WSJ) написала новость, что в США якобы была создана компания по добыче полезных ископаемых на Луне. "
-Не прошло и полгода, как Белый Дом заявил про эксклюзивные права на добычу минералов на Луне![smile8.gif](https://aftershock.news/sites/all/modules/ckeditor/plugins/hkemoji/sticker/oldschool/smile8.gif)
-Выходит что Белый Дом питается фейковыми новостями, созданными под его патронажем, и затем выдает их за чистую монету.
-Хуже ... нейросеть Гугла управляет Белым Домом ) -Дойдет до того что выяснится, Сири выбрала Трампа !![smile37.gif](https://aftershock.news/sites/all/modules/ckeditor/plugins/hkemoji/sticker/oldschool/smile37.gif)
Не взлетит.
Не потому что идея плохая. А потому что, "цифровые лужи". Инет скатывается в кластеризацию. Народ сидит в своих "лужах" и "воюет" с другими "лужами".
"Лужа" для себя все уже решила. Если ты против - тебя выкидывают.
Впрочем, это стадия развития вполне нормальная. Но новости анализировать без "луж" деньги на ветер.
Золотые слова. Будут анализировать и лужи, и их взаимоотношения. И остальное, конечно.
То что вы напечатали относится к негуманоидным системам если хотите рою людей. На них влияют и вполне успешно судя по "геволюциям" от древности до наших дней.
Если появились "лужи", значит, должны появиться кластеры "над лужами" (лужи второго уровня, потом третьего, и так до вершины пирамиды), которые с помощью этого инструмента будут анализировать взаимоотношения между лужами низшего уровня, направлять их конфликты в нужную сторону, в общем - манипулировать. Манипуляции будут отражаться в СМИ, что также будет элементом манипуляций и подвергаться анализу. И так бесконечно. Таким образом будет создан цифровой дубликат мировой политической помойки.
А зачем?
Как всегда, сначала бесплатно и не обязательно будет?
1. Возможно, как средство торможения региональных проектов. Потом начнут продавать за деньги и ограничивать доступ.
2. Гугол умеет хоронить даже работающие решения.
3. Всякие GDPR, CCPA также внесут много интересного)