О проекте Google по анализу мировых новостей

Аватар пользователя Сфера

По официальной версии целью проекта GDELT, поддерживаемого подразделением Google Ideas, является создание открытого, обновляемого в режиме реального времени каталога мировых новостей и предоставление доступа к этому каталогу для всех желающих. Архив проекта GDELT находится в ряду крупнейших открытых баз данных, посвященных мировому сообществу. 

Что такое проект GDELT?

Проект GDELT использует огромный каталог мировых новостных ресурсов, созданный в сотрудничестве с партнерами по всему миру, для осуществления мониторинга в реальном времени каждого доступного печатного, вещательного и онлайн новостного репортажа, выпущенного где-либо в мире, уделяя особое внимание региональным новостям на региональных зыках. Каждая статья сначала переводится на английский язык с помощью машинного переводчика (небольшая часть материалов переводится человеком), а затем обрабатывается набором алгоритмов. Применяемые алгоритмы способны идентифицировать сотни категорий событий (от протестов до призывов к миру), тысячи эмоций (от тревоги до воодушевления), миллионы тем (от прав женщин до обеспечения доступа к питьевой воде), а также местоположения, людей, организации и другие индикаторы.

Эти систематизированные метаданные (а не сам исходный текст статей) затем публикуются в форме свободно доступного потока данных, обновляющегося каждые 15 минут и представляющего собой многоязычный аннотированный каталог мировых новостей. Кроме того, база данных содержит обработанные таким же образом различные исторические архивы: архив, охватывающий 70 лет и содержащий 21 миллиард слов из академической литературы, включая материалы JSTOR, DTIC и Internet Archive; отчеты о правах человека за 50 лет; полмиллиона часов американских телевизионных новостей; собрание книг за 200 лет.

Что такое Google BigQuery?

Google BigQuery – это облачная платформа, предназначенная для анализа огромных база данных, таких как GDELT. BigQuery использует инфраструктуру Google для обслуживания интерактивных SQL-запросов к наборам данных, имеющим объем порядка нескольких петабайтов и содержащим десятки триллионов строк. Запросы передаются посредством REST API и выражаются в виде стандартного SQL, а также могут быть расширены с помощью определяемых пользователем JavaScript-функций для реализации сложных запросов. Каждый день пользователи загружают в BigQuery сотни терабайтов новых данных (как пакетных, так и потоковых), которые сразу же становятся доступны для запросов. Для обработки одного запроса могут быть выделены тысячи процессоров, как следствие, пользователь получает быстрый результат без необходимости индексирования или секционирования данных.

BigQuery и GDELT в действии

BigQuery позволяет исследовать огромные архивы GDELT почти в реальном времени, интерактивно выполняя запросы, анализ и визуализацию. Часто BigQuery используется для анализа тенденций протестов или конфликтов в данной стране и позволяет поместить текущие события в исторический контекст. Например, на рисунке ниже представлена диаграмма нестабильности в Чили начиная с 1979 года. Особо выделяется восстание против режима Пиночета с 1983 по 1988 и его арест десятилетие спустя в октябре 1998. После этого в стране наблюдается относительная стабильность. Аналогичный подход недавно был использован для сравнения тенденций, свойственных протестам в Европейском союзе, имевшим место за последние 40 лет. Данный тип анализа является очень мощным инструментом, потому что позволяет охватить миллионы мировых событий, произошедших в течение десятилетий, и быстро сгенерировать хронологическую количественную характеристику нестабильности в той или иной стране, которая с большой точность показывает периоды нарастаний и спадов протестной активности.

Рисунок 1. Хронология нестабильности в Чили глазами GDELT и BigQuery (ось Y представляет «интенсивность» нестабильности).

Другой набор данных GDELT содержит имена людей, названия организаций, местоположения, темы и эмоции, найденные в новостных статьях. Благодаря BigQuery, с помощью всего лишь одной строки SQL-кода было просканировано 150 миллионов новостных статей, и сформирован список из 1500 пар имен, чаще всего упоминавшихся совместно в новостях, касающихся референдума по финансовой политике в Греции. Эта операция была выполнена за несколько секунд. На выходе был создан CSV-файл, предназначенный для визуализации с помощью Gephi. Полученная в результате сетевая диаграмма представлена ниже. Данный тип диаграмм позволяет пользователю быстро выяснить, как та или иная тема освещалась в новостях, какие личности являлись центральными фигурами, и как они были связаны друг с другом. В данном случае решающую роль сыграли следующие европейские лидеры: Ангела Меркель и Вольфганг Шойбле от Германии, Жан-Клод Юнкер от Люксембурга и Франсуа Олланд от Франции.

Рисунок 2. Сетевая диаграмма персон, чаще всего упоминавшихся совместно в новостных репортажах в Греции в период с 1 по 15 июля 2015 года.

Еще одним примером использования BigQuery совместно с GDELT является отображение на карте местоположений, упоминаемых в контексте некоторой темы. BigQuery поддерживает определяемые пользователем функции, что позволяет создавать JavaScript-приложения любой сложности. Например, можно реализовать вложенные циклы и сложную фильтрацию, которая ассоциирует каждую тему с ее ближайшим местоположением в документе. Подобные JavaScript-приложения выполняются, как часть запроса, что позволяет выполнять всю аналитику полностью в BigQuery. На рисунке ниже с помощью CartoDB визуализированы все местоположения, упоминаемые в контексте преступлений против дикой природы в период с февраля по июнь 2015 года. Эта карта была создана, чтобы показать, насколько широко распространены подобные преступления. Другие визуализации, созданные с помощью GDELT и BigQuery, позволяют анализировать географию таких тем, как противотанковое оружиеизменение климатадолговой кризис в ГрецииИсламское государство, а также местоположения, упоминаемые в книгах за 200 лет.

Рисунок 3. Местоположения, упомянутые в контексте преступлений против дикой природы в мировых новостях в период с февраля по июнь 2015 года.

Сотрудники исследовательского подразделения банка BBVA выполнили ряд исследований и визуализаций с помощью GDELT и BigQuery. Среди них карта миграционного кризиса в Европе, представленная ниже, а также моделирование динамики социальных волнений. На карте миграционного кризиса показаны местоположения притока (оранжевый) и оттока (красный) беженцев в Европе и Северной Африке в течение первых шести месяцев 2015 года. Подобные карты, визуализирующие тенденции на основе миллионов новостных сообщений, позволяют оценить масштабы и географию возникающих кризисов, способных спровоцировать серьезную нестабильность.

Рисунок 4. Карта притока и оттока беженцев в Европе и Северной Африке в период с 14 января по 15 июня 2015 года.

Авторство: 
Копия чужих материалов
Комментарий автора: 

Новый дивный мир больших данных...

Случайно наткнулся на информацию и пока не использовал. Однако, если исходить из вышеописанного, возможности мониторинга инфополя достаточно широки. Тем не менее, учитывая репутацию ТНК, использование ресурса вызывает определённые вопросы.

Комментарии

Аватар пользователя Rinat Sergeev
Rinat Sergeev(7 лет 4 месяца)

Помню, был у нас несколько лет назад проект, использующий раннюю версию GDELT. Пытались на основе новостей предсказывать события всякие нехорошие.

Выяснилось, что как предсказательный датасет - оно не очень. Но как иллюстративный для уже прошедших событий и устоявшихся взаимоотношений - более чем!

Аватар пользователя pokos
pokos(11 лет 1 месяц)

Добывание из открытых источников. Ничего нового.

Комментарий администрации:  
*** отключен (кусок дерьма) ***
Аватар пользователя mastak
mastak(11 лет 6 месяцев)

Электронный каталог новостей и их история ... 

Мммм ...

Какие чудесные возможности для подтасовок и манипуляций !

Аватар пользователя ВладиславЛ
ВладиславЛ(5 лет 7 месяцев)

Карта Израиля кишит новостями. Показан Заказчик и Аггрегатор.

Комментарий администрации:  
***отключен (антигосударственная пропаганда, систематические набросы) ***
Аватар пользователя выхухоль
выхухоль(9 лет 4 месяца)

Зато гидроразрывы в Северной Америке - спасение природы.

Голос #ИмперииЛжи

Аватар пользователя mimoshel
mimoshel(4 года 4 месяца)

По Украине прямо показательные карты, выведены картинками, много работали люди ...

---------------------------------------------------------------------------------------------------------------------------------------

Про создание фейковых новостей нейросетями:

"Ученые из Института Аллена по изучению ИИ совместно с Вашингтонским университетом создали генерирующую фейк-ньюс нейросеть. Программа на основе анализа текстов Wall Street Journal (WSJ) написала новость, что в США якобы была создана компания по добыче полезных ископаемых на Луне. "

-Не прошло и полгода, как Белый Дом заявил про эксклюзивные права на добычу минералов на Луне smile8.gif

-Выходит что Белый Дом питается фейковыми новостями, созданными под его патронажем, и затем выдает их за чистую монету.

-Хуже ... нейросеть Гугла управляет Белым Домом ) -Дойдет до того что выяснится, Сири выбрала Трампа ! smile37.gif

 

Аватар пользователя 2tvlad
2tvlad(6 лет 3 недели)

Не взлетит. 

Не потому что идея плохая. А потому что, "цифровые лужи". Инет скатывается в кластеризацию. Народ сидит в своих "лужах" и "воюет" с другими "лужами". 

"Лужа" для себя все уже решила. Если ты против - тебя выкидывают. 

Впрочем, это стадия развития вполне нормальная. Но новости анализировать без "луж" деньги на ветер.

Комментарий администрации:  
*** Уличен в дешевых манипуляциях и набросах - https://aftershock.news/?q=node/1337185 ***
Аватар пользователя pokos
pokos(11 лет 1 месяц)

Золотые слова. Будут анализировать и лужи, и их взаимоотношения. И остальное, конечно.

Комментарий администрации:  
*** отключен (кусок дерьма) ***
Аватар пользователя ВладиславЛ
ВладиславЛ(5 лет 7 месяцев)

То что вы напечатали относится к негуманоидным системам если хотите рою людей. На них влияют и вполне успешно судя по "геволюциям" от древности до наших дней.

Комментарий администрации:  
***отключен (антигосударственная пропаганда, систематические набросы) ***
Аватар пользователя Yevd
Yevd(9 лет 6 месяцев)

Если появились "лужи", значит, должны появиться кластеры "над лужами" (лужи второго уровня, потом третьего, и так до вершины пирамиды), которые с помощью этого инструмента будут анализировать взаимоотношения между лужами низшего уровня, направлять их конфликты в нужную сторону, в общем - манипулировать. Манипуляции будут отражаться в СМИ, что также будет элементом манипуляций и подвергаться анализу. И так бесконечно. Таким образом будет создан цифровой дубликат мировой политической помойки. 

А зачем?

 

Аватар пользователя Gets
Gets(5 лет 8 месяцев)

Как всегда, сначала бесплатно и не обязательно будет?

Аватар пользователя Another_jim
Another_jim(9 лет 2 месяца)

1. Возможно, как средство торможения региональных проектов. Потом начнут продавать за деньги и ограничивать доступ.

2. Гугол умеет хоронить даже работающие решения.

3. Всякие GDPR, CCPA также внесут много интересного)