Анализ данных социальных сетей - история, мифы и реальность

Аватар пользователя Eigen

Данный материал был написан как попытка проанализировать явление, которое недавно взорвало интернет – расследование швейцарским изданием Das Magazin причин победы Д.Трампа на выборах в США . 

Издание считает, что основные инструменты победы Трампа – технологии анализа больших объемов данных, ежедневная слежка за избирателями и универсальное оружие, попавшее не в те руки (под столь громким именем скрывается обычная психометрия с использованием данных социальных сетей).

Меня, как человека давно работающего в сфере анализа данных соц. сетей, посетила идея опубликовать цикл статей посвященных этому вопросу и слегка развеять мифы, связанные с этой относительно новой сферой деятельности.

Я постарался писать максимально научно-популярно, прошу прощения за много букв у аудитории, но эта тема достаточно объемна. 

 

1. Начало истории психометрии

В чем авторы Das Magazin правы – да, психометрия в своем прикладном аспекте, разрабатывалась и применялась как оружие из арсенала специальных служб.

История попыток создать инструмент, позволяющий на основе объективных данных (в основном это было наблюдение за объектом и оперативные эксперименты) оценить личность человека и спрогнозировать его поведение имеет долгую историю.

В 1954 году для президента Эйзенхауэра группой сотрудников ЦРУ под руководством Джеймса Х. Дулитла был подготовлен "Доклад о тайных операциях ЦРУ" где давалась оценка национальной безопасности США и утверждалось:

«…Если США собираются выжить, должны быть пересмотрены старые американские концепции «честной игры». Мы должны научиться ниспровергать, саботировать и уничтожать наших врагов более умными, более сложными и более эффективными методами, чем те, которые используются против нас. Возможно, потребуется ознакомить с этим американский народ, чтобы он понимал и поддерживал эту неприглядную философию…».

 
Оригинал цитаты выше

Данный доклад привел к началу полномасштабных исследований в различных сферах – от психологии личности и толпы, до исследований в фармакологии, с целью противостоять мнимой “агрессии Советов” в сфере информационной войны и воздействия на общество.

 

2. Психометрия как орудие спецслужб

Первоначально, методы оценки психологических характеристик людей на основе анализа их поведения разрабатывались в Office of Technical Service (OTS) в ЦРУ для выдачи агентам-вербовщикам рекомендаций по эффективному взаимодействию с объектами вербовки.

 Психологи ОТS использовали  как общедоступные, так и специально разработанные психологические тесты для оценки личности, ее мотивации и наличия оперативно-значимых черт личности.

Исходные данные для оценки брались из отчетов оперативных офицеров, которые наблюдали за личными и поведенческими особенностями людей.

Затем психологи ОТS применяли свой опыт для оценки всей информации, собранной о человеке.

 

Очевидно, что при все эффективности этот подход имел существенный недостаток – это была ручная работа, плохо подлежащая масштабированию к тому же результат зависел от множеств субъективных факторов.

И выход постарались найти в широком использовании средств вычислительной техники и методов статистики.

3. Психометрия и computer science

Большой вклад в разработку инструментов массовой и частично автоматизированной первичной оценки внесли работы психолога ОТS Джона Гиттингера и британского профессора Рэймонда Кеттела.

Так, Р. Кеттелл провел факторный анализ списка Олпорта-Одберта из 18 000 слов, описывающих личность в английском языке и смог выделить 16 независимых друг от друга факторов, с помощью которых люди описывают себя и друг друга, данная методология получила название 16-pf и легла в основу одноименного личностного опросника.

Примерно в то же время Д. Гиттенгер, работая в клинике г. Норман, штат Оклахома собрал и систематизировал данные 29 000 своих пациентов в единой базе данных и подверг эти данные различным видам кластерного и факторного анализов, а также зарождающимся методам машинного обучения.

Методология Гиттингера позволила исключить (в ряде случаев) из процесса оценки объекта профессиональных психологов.

Многие наработки Гиттенгера были утеряны в ходе скандала связанного с проектом MK-ULTRA в рамках которого, собственно данные исследования и финансировали. 

4. Психометрия сегодня

В период с 2007 по 2014 год научное сообщество пережило ренессанс темы психометрии людей с помощью объективных методов, а не самообследования.

 
Это было обусловлено следующими факторами:

В психометрии на основе анализа данных соц. сетей можно выделить три направления аналитики которые взаимно дополняют друг друга:

 
Виды данных для психометрии

Для получения правдоподобных результатов о пользователе достаточно:

1) 1200 слов написанных пользователем

2) 70+ лайков

3) 40+ друзей

Конкретные методы и их точность - это предмет следующей статьи, если сообщество сочтет тему интересной для ее развития на ресурсе.

 

5. Сферы применения психометрии в современном мире

В настоящее время сегмент рынка, связанный с применением психометрии для анализа данных соц. сетей только начинает складываться.

Ниже представлен список наиболее известных работ, связанных с использованием психометрии для бизнес-задач:

 
Анализ готовности к распространению информации
 
 Маркетинговые кампании
 
Предвыборные кампании
 
 Потребительские предпочтения
 
 Банковский скоринг

 

6. Ключевые компании работающие в сфере психометрии

Как уже было сказано раньше – данный сегмент рынка только начинает складываться, но на нем уже можно выделить как основных игроков, так и их подрастающих конкурентов.

 
 IBM
 
 Cambridge Analytica
 
 Relation Rate
 
 VisualDNA & EFL

7. Примеры использования соц. сетей для оценки личностных особенностей человека

 

Ниже представлены примеры личностных характеристик определяемые по соц. сетям

 
Пол
 
Личностные черты
 
Сексуальная ориентация
 
Политические и религиозные предпочтения
 
Политические и религиозные предпочтения - расшифровка

 

Заключение

Если сообщество заинтересует данная тема то я готов написать более детальный обзор того, какие данные собираются, как анализируются и с какой точностью получается результат.

Комментарий редакции раздела Социология Интернета

Правильный вопрос не в том, "что они про нас знают?", а в том, "что они не могут знать?"

Успокойтесь, "они" знают всё.

Комментарии

Аватар пользователя kue
kue(10 лет 5 месяцев)

Есть один анекдот как один чувак продал другому слона. В анекдот не вошло главное - слона звали Трамп.

upd. Краткая  версия: Встречаются 2 друга, один другому жалуется на жизнь: - жена пилит, работы куча, дома бардак и т.д. 
Второй ему рассказывает: - а я купил слона, такая красота, пылесосит, поливает газон, носит сумки за женой, еще и детей катает. 
Первый просит-продай. Второй-ладно, как другу уступлю. Купил за 30 тысяч, отдам за 20, как другу. 
Через неделю встречаются. Продавший слона спрашивает-как дела. 
Ой, не спрашивай. Еще хуже. Слон-зараза, ничего не делает, жрет, воняет и кучи в метр высотой кладет. Жена из дома выгоняет, пилит каждый день. 
- Мда, друг! С таким настроением ты слона не продашь!

Аватар пользователя WM
WM(9 лет 4 месяца)

Хороший анекдотец.

Аватар пользователя Another_jim
Another_jim(9 лет 7 месяцев)

Да, было бы интересно)

Можете рекомендовать, литературу, курсы, тренинги?)

 

Аватар пользователя Eigen
Eigen(7 лет 11 месяцев)

Ну если в Москве - то неплохой обзорный курс https://cs.hse.ru/dpo/analysis

Вообще сотрудники одноименной лаборатории пишут хорошие книги и УМК по теме аналитики соц. сетей https://anr.hse.ru

 

Если говорить о других городах в России, то далеко продвинулись товарищи из Новосибирска и Екатеринбурга, но курсы еще в стадии согласования и запуска

 

Комментарий администрации:  
*** Отключен (маты, игнор замечаний) ***
Аватар пользователя ДАМПИР
ДАМПИР(9 лет 3 недели)

Есть ещё "Академия" Айзека Азимова, но там азы и изложены очень просто, в виде научной фантастики. Там это называется - "психоистория".

Подозреваю что "Академия" и была "ознакомление американского народа" с психометрией. 

Аватар пользователя Another_jim
Another_jim(9 лет 7 месяцев)

Я читал в переводе, где оно являлось "Основанием")

Боюсь, что Азимовских азов мне не достаточно))

Аватар пользователя mstislav
mstislav(9 лет 12 месяцев)

Тема очень интересная, да только всё вышеперечисленное активно используется не только в США, но и в России, и в других странах. Капитализм уже давно, как и сотни лет назад, использует манипуляции массами как средство для достижения своих целей, а цель капитализма одна - обогащение. А сейчас уровень манипуляций стал качественно выше, учитывая возможность влиять на общественное сознание практически мгновенно, направляя фокус интересов сознания социума в нужное русло.

Комментарий администрации:  
*** Унылый борцун ***
Аватар пользователя WM
WM(9 лет 4 месяца)

Спасибо. 

Было бы интересно ознакомиться подробнее.

Аватар пользователя Eigen
Eigen(7 лет 11 месяцев)

Ну если в Москве - то неплохой обзорный курс https://cs.hse.ru/dpo/analysis

Вообще сотрудники одноименной лаборатории пишут хорошие книги и УМК по теме аналитики соц. сетей https://anr.hse.ru

 

Если говорить о других городах в России, то далеко продвинулись товарищи из Новосибирска и Екатеринбурга, но курсы еще в стадии согласования и запуска

 

 

 

Комментарий администрации:  
*** Отключен (маты, игнор замечаний) ***
Аватар пользователя Another_jim
Another_jim(9 лет 7 месяцев)

Еще интересуют курсы по семантическим сетям и базам знаний) 

Также было бы неплохо про введение в семантический анализ текста(инструменты, основные определения)

Аватар пользователя Eigen
Eigen(7 лет 11 месяцев)

Ну если "из коробки" то хорошо подходит решение от российской, кстати, компании ABBYY - ABBYY Compreno.

Есть фигова гора статей как им пользоваться (на Хабре в основном).

 

А если самому пилить то это довольно тяжело - именно в плане производительности, чтобы и асинхронно, и параллельно и тысячи аккаунтов подряд.

 

Комментарий администрации:  
*** Отключен (маты, игнор замечаний) ***
Аватар пользователя Another_jim
Another_jim(9 лет 7 месяцев)

а если под англоязычные ресурсы?

И если к производительности нет особых требований?)

Аватар пользователя Eigen
Eigen(7 лет 11 месяцев)

Хмм...IBM Watson Personality Insights как вариант.

Но там только уровни типа лексика и морфология.

Семантика насколько я знаю еще у Гугла есть - Tensor Flow

Compreno умеет и английский обрабатывать кстати.

 

 

 

 

Комментарий администрации:  
*** Отключен (маты, игнор замечаний) ***
Аватар пользователя Непонял
Непонял(9 лет 1 месяц)

причин победы Д.Трампа на выборах в США . 

ИМХО причина одна - за него проголосовало большинство американцев, которым надоел Обама и его женская реинкарнация в лице Клинтон. В остальных "сортах дерьма" избиратели разбираться не стали.

Аватар пользователя kue
kue(10 лет 5 месяцев)

Да пошли вы нахрен со своим Трампом. Все мозги уже прожжужали с очередным своим говноедом

Аватар пользователя Непонял
Непонял(9 лет 1 месяц)

Да пошли вы нахрен со своим Трампом

Полностью согласился, если бы мы жили в Российской или Советской империи, Но одну разломали вторую профукали. Так что приходится жить с тем что имеем. Не согласны?

P.S. Оставьте свои кулинарные предпочтения при себе.

Аватар пользователя Eigen
Eigen(7 лет 11 месяцев)

Ну я сам придерживаюсь мнения о том, что Трампа скорее привели к власти объективные условия чем мозгпромывка, но теория о использовании такой технологии есть, поэтому я решил написать такую обзорную статью по теме

Комментарий администрации:  
*** Отключен (маты, игнор замечаний) ***
Аватар пользователя Непонял
Непонял(9 лет 1 месяц)

Спасибо за статью, но, ИМХО, Вы переоцениваете значение технологий. Почти как фарисеи ставившие закон выше человека.

Аватар пользователя Ален Прост
Ален Прост(8 лет 3 недели)

А если человек не присутствует в соцсетях, как им дистанционно управлять?

Аватар пользователя Eigen
Eigen(7 лет 11 месяцев)

На вскидку -

1) биометрическая идентификация в магазинах (сейчас над этим как раз работаю) - создание некой "идентичности"

2) привязка покупок и перемещений к идентичности

3) привязка данных биллинга к идентичности

4) привязка данных коммунальных платежей к идентичности

5) привязка данных сетевой активности к идентичности 

 

Рецепт прост - не ходить в магазин, не использовать безнал, не платить за коммуналку - в общем стать бомжем/отшельником/дауншифтером =)

 

Комментарий администрации:  
*** Отключен (маты, игнор замечаний) ***
Аватар пользователя Vlad Rooney
Vlad Rooney(9 лет 4 недели)

В магазины - ходить,

Безналом не платить,

По коммуналке много не накопаешь.

Аватар пользователя Eigen
Eigen(7 лет 11 месяцев)

Ну как Вам сказать...

 

как минимум такая черта как Conscientiousness - добросовестность довольно легко выкупается)  

А вот что тотальный безнал - зло это действительно правда.

Комментарий администрации:  
*** Отключен (маты, игнор замечаний) ***
Аватар пользователя J1EXA
J1EXA(7 лет 11 месяцев)

По первому пункту вообще фильм "Особое мнение" напомнило.. Нет, конечно можно организовать такую систему, только кто оплатит сей банкет? В России мне кажется не взлетит.

Третий и четвертый пункты тоже бабушка надвое сказала. У меня одна карта на двоих, как идентифицировать?

Аватар пользователя Eigen
Eigen(7 лет 11 месяцев)

Еще как взлетает, уже работает даже =) 

Платят собственно сами торговые сети - это позволяет 

1) таргетировать рекламу (в основном для luxury-сегмента)

2) делать market-basket анализ (кто, что когда и с чем покупает - поищите статью "Торговля знает, когда вы ждете ребенка", вроде из Yandex'a автор)

3) смотреть кто и как перемещается в магазине.

 

Да, пока это дорогое удовольствие только для крупных сетей, но собственно компания в которой я работаю, сейчас работает над удешевлением услуги, и довольно успешно.

 

Если говорить о как связать что именно вы расплатились - все довольно просто:

1) Вас идентифицировали на кассе с помощью камеры

2) Известен временной промежуток когда вы сделали действие (рассчитались картой)

3) Связываем транзакцию в OLTP-системе магазина с фактом наличия человека у кассы

4) PROFIT!

 

То же самое делаем со вторым человеком и вот мы знаем, кто и когда рассчитывался.

Комментарий администрации:  
*** Отключен (маты, игнор замечаний) ***
Аватар пользователя Another_jim
Another_jim(9 лет 7 месяцев)

Можно и упростить)

У многих есть карты лояльности, так по этим картам идентифицируем человека. 

Конечно выпадает перемещение по магазину и времени, проведённого в магазине, но для анализа покупок вполне хватает)) а если в карте лояльности есть имя-фамилия, Почта и другие штуки, то можно и их включить в анализ) 

все зависит от целей)

Аватар пользователя mr.Iceman
mr.Iceman(12 лет 9 месяцев)

Именно поэтому все существующие у меня карты лояльности я регистрирую на имена и телефоны своего руководства.

Аватар пользователя Eigen
Eigen(7 лет 11 месяцев)

Тут речь шла именно об отождествлении транзакции по банк. карте с человеком (т.е. например моя девушка может использовать для покупки например косметики мою карту) и надо понять что это не я, а именно другой человек. А в идеале - ЧТО за человек.

 

 

Комментарий администрации:  
*** Отключен (маты, игнор замечаний) ***
Аватар пользователя Another_jim
Another_jim(9 лет 7 месяцев)

Понятно)

А у продавца остаётся номер карты? Его можно хешировать?(чтобы восстановить было нельзя, но можно однозначно определить, что номер уникальный?)

Аватар пользователя Canis_m
Canis_m(8 лет 7 месяцев)

Таким человеком будут управлять через друзей и родственников, которые есть в соц сетях.

Аватар пользователя Эпиграмма
Эпиграмма(8 лет 3 месяца)

Ох, как же мне нравится, когда очередной Ходжа Насреддин в стопицццотпервый раз называет старые фокусы новыми именами (например, психометрией) и вновь максимально научно-популярно рассказывает куче обществу лекговерных любопытных дебилов баранов людей, как легко можно ими манипулировать множеством способом при помощи социальных сетей. 

Аватар пользователя Eigen
Eigen(7 лет 11 месяцев)

Я могу и не рассказывать, но тогда у почтенной публики не будет возможности выбора. 

Как минимум это познавательно.

Комментарий администрации:  
*** Отключен (маты, игнор замечаний) ***
Аватар пользователя Эпиграмма
Эпиграмма(8 лет 3 месяца)

Да нет же, к Вам какие претензии. Наоборот, интересно. Просто, у меня вечная проблема с акцентами.

Аватар пользователя Another_jim
Another_jim(9 лет 7 месяцев)

Зря Вы так)

Подобные методы могут помочь в системах автоматизации, выведения подсказок на стандартные действия)

Аватар пользователя Эпиграмма
Эпиграмма(8 лет 3 месяца)

Если для того, чтобы понять, как лучше продавать кофе в своей кофейне, вам нужна какая-нибудь гугл-аналитика и специалист, который за деньги вам втюхает, как и почему ею нужно пользоваться, чтобы быть успешным и богатым кофейником (не путать с чайником), то ссылок, куда обращаться, вам уже накидали. 

Аватар пользователя Another_jim
Another_jim(9 лет 7 месяцев)

Очень рад, что в Вашей работе все процессы просты и понятны)

Аватар пользователя Эпиграмма
Эпиграмма(8 лет 3 месяца)

Да всякие бывают в моей работе процессы, впрочем, как и в любой другой. Мы, видимо, говорим о разном. Фигурально - я о том, что нужно учиться по книгам, а Вы о том, что нужно использовать методички. А так-то нас с Вами не различить!)))

Аватар пользователя Another_jim
Another_jim(9 лет 7 месяцев)

Так посоветуйте книжки)

И ещё, обучение - очень специфичная штука) в нем любые методы хороши) и не стоит отказываться ни от курсов, ни от книг, ни от кратких руководств) 

Аватар пользователя Another_jim
Another_jim(9 лет 7 месяцев)

Опять-же)

Повторение-Узнавание-Запоминание) чем больше связей создаётся, чем больше различных путей попадания информации, ее представления, тем лучше для запоминания) 

Также не стоит отбрасывать мотивировку) работа в группе мотивирует) курсы, которые построены правильно позволяют задать и сроки и проверить усвоение, а хороший преподаватель, если ему не все равно, способен адаптировать материал, дать дополнительный материал) 

конечно есть стандартные задания- по методичке, которые оценивают усвоение базовых принципов) 

сложные задания "на подумать" способны мотивировать к дальнейшему изучению)

с книгами сложнее. Не все готовы составить себе план обучения, правильно оценить знания, даже базовые) да, и не все способны выбрать правильные книги) 

Аватар пользователя dnick
dnick(9 лет 3 месяца)

Спасибо, в целом это и так давно известно, но действительно интересны тонкости - сбор инфы и её анализ (с примерами, вариантами использованных пакетов и сервисов, причин их выбора и разницу, т.п.).

Конкретно в эту статью полез, увидев в заголовке слово "мифы", но ни одного не нашел. =)) Раскройте, пожалуйста, и эту тему тоже.

Аватар пользователя Eigen
Eigen(7 лет 11 месяцев)

Ок, во второй части обязательно учту Ваши пожелания)

Комментарий администрации:  
*** Отключен (маты, игнор замечаний) ***
Аватар пользователя Omni
Omni(12 лет 3 месяца)

Шаблонизированный анализ не работает на любителях непредсказуемой глупости.

Аватар пользователя Another_jim
Another_jim(9 лет 7 месяцев)

К сожалению, люди намного более предсказуемы, чем сами о себе думают)

 

Аватар пользователя Omni
Omni(12 лет 3 месяца)

Такие не интересны.

Аватар пользователя Rever
Rever(7 лет 11 месяцев)

Очень интересно посмотреть пару кейс ов применительно к России. Сам занимаюсь  подобным.

 

Аватар пользователя Eigen
Eigen(7 лет 11 месяцев)

Ок, вторая часть (которая судя по реакции публики, таки будет) как раз посвящена методам и кейсам в России.

Комментарий администрации:  
*** Отключен (маты, игнор замечаний) ***
Аватар пользователя woddy
woddy(11 лет 11 месяцев)

Доктор, у меня проблема приватного свойства. Я начал бояться ставить лайки.

Я же знаю, что стоит кому-то где-то лайкнуть, эта информация поступает в соответствующие базы. Компьютеры – они памятливые. Всё помнят. Вечно. И будут тебе до конца жизни это припоминать при каждом удобном случае, как стервозная... [цензурировано: разжигание межполовой розни]. Кому где что понравилось – это ценная маркетинговая информация, её научились обращать в деньги с хорошим коэффициентом. Поэтому ею дорожат, собирают и хранят бережно, продают задорого.

       


А при каждом лайке тебя идентифицируют. Браузер старается держать пользователя залогиненным во все соцсети и поисковые системы. Не то, что лайк поставить, а даже простой рекламный баннер нельзя посмотреть без того, чтоб тебя аутентифицировали. На всех веб-страницах – есть хоть одна кнопочка, хоть картиночка, хоть скриптик от Фейсбука или Гугла или ещё какой корпорации чужого добра. А если кнопочка принадлежит ФБ, то ей все твои фейсбучные куки открыты.

Иной раз увидишь отличный контент, захочется чем-то отблагодарить автора. Забудешь про свою фобию, потянешься к кнопке "Like"... А тут в голове раздаётся официальный голос: "Предупреждаем. Всё, что вы лайкните, может быть использовано против вас!" Сразу мышку отдёргиваешь.

Доктор, я ведь айтишник. Я же не только знаю, но и зримо себе представляю ту таблицу в БД, где записаны все-все до единого объекты, которые я лайкнул за свою жизнь. Как вообразишь – страшно. Все мои вкусы и пристрастия – как на ладони. Другие, может, не знают об этом или так... туманно представляют. Поэтому и не боятся лайкать. А у меня в голове такая яркая картина: каждый байтик в POST-запросе вижу, каждую SQL-команду.

Из-за этого не могу жить полноценной социальной жизнью. Она же теперь вся – в социальных сетях. Давеча сидим с подругой в ресторане за одним столиком. Она свою тарелку смартфоном щёлкнула и уже через минуту обиженно спрашивает, почему я её пост в Инстаграмме не одобрил, не пожелал ей там приятного аппетита.

Доктор, помогите.

Что говорите? Известная проблема? Описана? Куда идти? Ещё раз адрес по буквам, пожалуйста... Ой, а там же регистрироваться надо. А у меня, знаете ли, есть ещё одна старая фобия...
 

Комментарий администрации:  
*** Неполживого чма кусок ***
Аватар пользователя 13302
13302(8 лет 7 месяцев)

не только лайки - гугл движения мышкой анализит

Аватар пользователя Eigen
Eigen(7 лет 11 месяцев)

wink

В таблицу не влезает, на практике используют NoSQL базы данных (в основном документо-ориентированные, ибо хер их знает что они там в выдаче API нафигачят, не переделывать же потом схему данных в базе и таблички).

А так красота - запрашивай да складывай в коллекцию =)

Комментарий администрации:  
*** Отключен (маты, игнор замечаний) ***
Аватар пользователя Kvazar_Old
Kvazar_Old(10 лет 7 месяцев)

Все это очень интересно, но отношения к Трампу не имеет. Его выбрали потому, что понимали - бабка это Обама в юбке. Медленная , но неуклонная деградация. А Трамп шел под лозунгом перемен(требуют наши сердца, ага). Но с другой стороны, многие понимают, что данные перемены - это фашистский режим и раскулачивание(Рузвельт золото отбирал, а Трамп будет стрич овец на ценных бумагах). Поэтому Овца назвал его фашистом и объявил войну.

Аватар пользователя mark.76
mark.76(7 лет 10 месяцев)

А вот имеет ли всё это отношение к реальному миру? Автор говоря об "объективности данных" из соцсетей, скромно умалчивает не только о кол-ве реальных людей за аккаунтами, но так же не рассматривает "качество" пишущего там контингента, их реальные мотивы и цели. 

Страницы