Данный материал был написан как попытка проанализировать явление, которое недавно взорвало интернет – расследование швейцарским изданием Das Magazin причин победы Д.Трампа на выборах в США .
Издание считает, что основные инструменты победы Трампа – технологии анализа больших объемов данных, ежедневная слежка за избирателями и универсальное оружие, попавшее не в те руки (под столь громким именем скрывается обычная психометрия с использованием данных социальных сетей).
Меня, как человека давно работающего в сфере анализа данных соц. сетей, посетила идея опубликовать цикл статей посвященных этому вопросу и слегка развеять мифы, связанные с этой относительно новой сферой деятельности.
Я постарался писать максимально научно-популярно, прошу прощения за много букв у аудитории, но эта тема достаточно объемна.
1. Начало истории психометрии
В чем авторы Das Magazin правы – да, психометрия в своем прикладном аспекте, разрабатывалась и применялась как оружие из арсенала специальных служб.
История попыток создать инструмент, позволяющий на основе объективных данных (в основном это было наблюдение за объектом и оперативные эксперименты) оценить личность человека и спрогнозировать его поведение имеет долгую историю.
В 1954 году для президента Эйзенхауэра группой сотрудников ЦРУ под руководством Джеймса Х. Дулитла был подготовлен "Доклад о тайных операциях ЦРУ" где давалась оценка национальной безопасности США и утверждалось:
«…Если США собираются выжить, должны быть пересмотрены старые американские концепции «честной игры». Мы должны научиться ниспровергать, саботировать и уничтожать наших врагов более умными, более сложными и более эффективными методами, чем те, которые используются против нас. Возможно, потребуется ознакомить с этим американский народ, чтобы он понимал и поддерживал эту неприглядную философию…».
Данный доклад привел к началу полномасштабных исследований в различных сферах – от психологии личности и толпы, до исследований в фармакологии, с целью противостоять мнимой “агрессии Советов” в сфере информационной войны и воздействия на общество.
2. Психометрия как орудие спецслужб
Первоначально, методы оценки психологических характеристик людей на основе анализа их поведения разрабатывались в Office of Technical Service (OTS) в ЦРУ для выдачи агентам-вербовщикам рекомендаций по эффективному взаимодействию с объектами вербовки.
Психологи ОТS использовали как общедоступные, так и специально разработанные психологические тесты для оценки личности, ее мотивации и наличия оперативно-значимых черт личности.
Исходные данные для оценки брались из отчетов оперативных офицеров, которые наблюдали за личными и поведенческими особенностями людей.
Затем психологи ОТS применяли свой опыт для оценки всей информации, собранной о человеке.
Очевидно, что при все эффективности этот подход имел существенный недостаток – это была ручная работа, плохо подлежащая масштабированию к тому же результат зависел от множеств субъективных факторов.
И выход постарались найти в широком использовании средств вычислительной техники и методов статистики.
3. Психометрия и computer science
Большой вклад в разработку инструментов массовой и частично автоматизированной первичной оценки внесли работы психолога ОТS Джона Гиттингера и британского профессора Рэймонда Кеттела.
Так, Р. Кеттелл провел факторный анализ списка Олпорта-Одберта из 18 000 слов, описывающих личность в английском языке и смог выделить 16 независимых друг от друга факторов, с помощью которых люди описывают себя и друг друга, данная методология получила название 16-pf и легла в основу одноименного личностного опросника.
Примерно в то же время Д. Гиттенгер, работая в клинике г. Норман, штат Оклахома собрал и систематизировал данные 29 000 своих пациентов в единой базе данных и подверг эти данные различным видам кластерного и факторного анализов, а также зарождающимся методам машинного обучения.
Методология Гиттингера позволила исключить (в ряде случаев) из процесса оценки объекта профессиональных психологов.
Многие наработки Гиттенгера были утеряны в ходе скандала связанного с проектом MK-ULTRA в рамках которого, собственно данные исследования и финансировали.
4. Психометрия сегодня
В период с 2007 по 2014 год научное сообщество пережило ренессанс темы психометрии людей с помощью объективных методов, а не самообследования.
В психометрии на основе анализа данных соц. сетей можно выделить три направления аналитики которые взаимно дополняют друг друга:
Для получения правдоподобных результатов о пользователе достаточно:
1) 1200 слов написанных пользователем
2) 70+ лайков
3) 40+ друзей
Конкретные методы и их точность - это предмет следующей статьи, если сообщество сочтет тему интересной для ее развития на ресурсе.
5. Сферы применения психометрии в современном мире
В настоящее время сегмент рынка, связанный с применением психометрии для анализа данных соц. сетей только начинает складываться.
Ниже представлен список наиболее известных работ, связанных с использованием психометрии для бизнес-задач:
6. Ключевые компании работающие в сфере психометрии
Как уже было сказано раньше – данный сегмент рынка только начинает складываться, но на нем уже можно выделить как основных игроков, так и их подрастающих конкурентов.
7. Примеры использования соц. сетей для оценки личностных особенностей человека
Ниже представлены примеры личностных характеристик определяемые по соц. сетям
Заключение
Если сообщество заинтересует данная тема то я готов написать более детальный обзор того, какие данные собираются, как анализируются и с какой точностью получается результат.
Правильный вопрос не в том, "что они про нас знают?", а в том, "что они не могут знать?"
Успокойтесь, "они" знают всё.
Комментарии
Есть один анекдот как один чувак продал другому слона. В анекдот не вошло главное - слона звали Трамп.
upd. Краткая версия: Встречаются 2 друга, один другому жалуется на жизнь: - жена пилит, работы куча, дома бардак и т.д.
Второй ему рассказывает: - а я купил слона, такая красота, пылесосит, поливает газон, носит сумки за женой, еще и детей катает.
Первый просит-продай. Второй-ладно, как другу уступлю. Купил за 30 тысяч, отдам за 20, как другу.
Через неделю встречаются. Продавший слона спрашивает-как дела.
Ой, не спрашивай. Еще хуже. Слон-зараза, ничего не делает, жрет, воняет и кучи в метр высотой кладет. Жена из дома выгоняет, пилит каждый день.
- Мда, друг! С таким настроением ты слона не продашь!
Хороший анекдотец.
Да, было бы интересно)
Можете рекомендовать, литературу, курсы, тренинги?)
Ну если в Москве - то неплохой обзорный курс https://cs.hse.ru/dpo/analysis
Вообще сотрудники одноименной лаборатории пишут хорошие книги и УМК по теме аналитики соц. сетей https://anr.hse.ru
Если говорить о других городах в России, то далеко продвинулись товарищи из Новосибирска и Екатеринбурга, но курсы еще в стадии согласования и запуска
Есть ещё "Академия" Айзека Азимова, но там азы и изложены очень просто, в виде научной фантастики. Там это называется - "психоистория".
Подозреваю что "Академия" и была "ознакомление американского народа" с психометрией.
Я читал в переводе, где оно являлось "Основанием")
Боюсь, что Азимовских азов мне не достаточно))
Тема очень интересная, да только всё вышеперечисленное активно используется не только в США, но и в России, и в других странах. Капитализм уже давно, как и сотни лет назад, использует манипуляции массами как средство для достижения своих целей, а цель капитализма одна - обогащение. А сейчас уровень манипуляций стал качественно выше, учитывая возможность влиять на общественное сознание практически мгновенно, направляя фокус интересов сознания социума в нужное русло.
Спасибо.
Было бы интересно ознакомиться подробнее.
Ну если в Москве - то неплохой обзорный курс https://cs.hse.ru/dpo/analysis
Вообще сотрудники одноименной лаборатории пишут хорошие книги и УМК по теме аналитики соц. сетей https://anr.hse.ru
Если говорить о других городах в России, то далеко продвинулись товарищи из Новосибирска и Екатеринбурга, но курсы еще в стадии согласования и запуска
Еще интересуют курсы по семантическим сетям и базам знаний)
Также было бы неплохо про введение в семантический анализ текста(инструменты, основные определения)
Ну если "из коробки" то хорошо подходит решение от российской, кстати, компании ABBYY - ABBYY Compreno.
Есть фигова гора статей как им пользоваться (на Хабре в основном).
А если самому пилить то это довольно тяжело - именно в плане производительности, чтобы и асинхронно, и параллельно и тысячи аккаунтов подряд.
а если под англоязычные ресурсы?
И если к производительности нет особых требований?)
Хмм...IBM Watson Personality Insights как вариант.
Но там только уровни типа лексика и морфология.
Семантика насколько я знаю еще у Гугла есть - Tensor Flow
Compreno умеет и английский обрабатывать кстати.
ИМХО причина одна - за него проголосовало большинство американцев, которым надоел Обама и его женская реинкарнация в лице Клинтон. В остальных "сортах дерьма" избиратели разбираться не стали.
Да пошли вы нахрен со своим Трампом. Все мозги уже прожжужали с очередным своим говноедом
Полностью согласился, если бы мы жили в Российской или Советской империи, Но одну разломали вторую профукали. Так что приходится жить с тем что имеем. Не согласны?
P.S. Оставьте свои кулинарные предпочтения при себе.
Ну я сам придерживаюсь мнения о том, что Трампа скорее привели к власти объективные условия чем мозгпромывка, но теория о использовании такой технологии есть, поэтому я решил написать такую обзорную статью по теме
Спасибо за статью, но, ИМХО, Вы переоцениваете значение технологий. Почти как фарисеи ставившие закон выше человека.
А если человек не присутствует в соцсетях, как им дистанционно управлять?
На вскидку -
1) биометрическая идентификация в магазинах (сейчас над этим как раз работаю) - создание некой "идентичности"
2) привязка покупок и перемещений к идентичности
3) привязка данных биллинга к идентичности
4) привязка данных коммунальных платежей к идентичности
5) привязка данных сетевой активности к идентичности
Рецепт прост - не ходить в магазин, не использовать безнал, не платить за коммуналку - в общем стать бомжем/отшельником/дауншифтером =)
В магазины - ходить,
Безналом не платить,
По коммуналке много не накопаешь.
Ну как Вам сказать...
как минимум такая черта как Conscientiousness - добросовестность довольно легко выкупается)
А вот что тотальный безнал - зло это действительно правда.
По первому пункту вообще фильм "Особое мнение" напомнило.. Нет, конечно можно организовать такую систему, только кто оплатит сей банкет? В России мне кажется не взлетит.
Третий и четвертый пункты тоже бабушка надвое сказала. У меня одна карта на двоих, как идентифицировать?
Еще как взлетает, уже работает даже =)
Платят собственно сами торговые сети - это позволяет
1) таргетировать рекламу (в основном для luxury-сегмента)
2) делать market-basket анализ (кто, что когда и с чем покупает - поищите статью "Торговля знает, когда вы ждете ребенка", вроде из Yandex'a автор)
3) смотреть кто и как перемещается в магазине.
Да, пока это дорогое удовольствие только для крупных сетей, но собственно компания в которой я работаю, сейчас работает над удешевлением услуги, и довольно успешно.
Если говорить о как связать что именно вы расплатились - все довольно просто:
1) Вас идентифицировали на кассе с помощью камеры
2) Известен временной промежуток когда вы сделали действие (рассчитались картой)
3) Связываем транзакцию в OLTP-системе магазина с фактом наличия человека у кассы
4) PROFIT!
То же самое делаем со вторым человеком и вот мы знаем, кто и когда рассчитывался.
Можно и упростить)
У многих есть карты лояльности, так по этим картам идентифицируем человека.
Конечно выпадает перемещение по магазину и времени, проведённого в магазине, но для анализа покупок вполне хватает)) а если в карте лояльности есть имя-фамилия, Почта и другие штуки, то можно и их включить в анализ)
все зависит от целей)
Именно поэтому все существующие у меня карты лояльности я регистрирую на имена и телефоны своего руководства.
Тут речь шла именно об отождествлении транзакции по банк. карте с человеком (т.е. например моя девушка может использовать для покупки например косметики мою карту) и надо понять что это не я, а именно другой человек. А в идеале - ЧТО за человек.
Понятно)
А у продавца остаётся номер карты? Его можно хешировать?(чтобы восстановить было нельзя, но можно однозначно определить, что номер уникальный?)
Таким человеком будут управлять через друзей и родственников, которые есть в соц сетях.
Ох, как же мне нравится, когда очередной Ходжа Насреддин в стопицццотпервый раз называет старые фокусы новыми именами (например, психометрией) и вновь максимально научно-популярно рассказывает
кучеобществулекговерныхлюбопытныхдебилов барановлюдей, как легко можно ими манипулироватьмножеством способомпри помощи социальных сетей.Я могу и не рассказывать, но тогда у почтенной публики не будет возможности выбора.
Как минимум это познавательно.
Да нет же, к Вам какие претензии. Наоборот, интересно. Просто, у меня вечная проблема с акцентами.
Зря Вы так)
Подобные методы могут помочь в системах автоматизации, выведения подсказок на стандартные действия)
Если для того, чтобы понять, как лучше продавать кофе в своей кофейне, вам нужна какая-нибудь гугл-аналитика и специалист, который за деньги вам втюхает, как и почему ею нужно пользоваться, чтобы быть успешным и богатым кофейником (не путать с чайником), то ссылок, куда обращаться, вам уже накидали.
Очень рад, что в Вашей работе все процессы просты и понятны)
Да всякие бывают в моей работе процессы, впрочем, как и в любой другой. Мы, видимо, говорим о разном. Фигурально - я о том, что нужно учиться по книгам, а Вы о том, что нужно использовать методички. А так-то нас с Вами не различить!)))
Так посоветуйте книжки)
И ещё, обучение - очень специфичная штука) в нем любые методы хороши) и не стоит отказываться ни от курсов, ни от книг, ни от кратких руководств)
Опять-же)
Повторение-Узнавание-Запоминание) чем больше связей создаётся, чем больше различных путей попадания информации, ее представления, тем лучше для запоминания)
Также не стоит отбрасывать мотивировку) работа в группе мотивирует) курсы, которые построены правильно позволяют задать и сроки и проверить усвоение, а хороший преподаватель, если ему не все равно, способен адаптировать материал, дать дополнительный материал)
конечно есть стандартные задания- по методичке, которые оценивают усвоение базовых принципов)
сложные задания "на подумать" способны мотивировать к дальнейшему изучению)
с книгами сложнее. Не все готовы составить себе план обучения, правильно оценить знания, даже базовые) да, и не все способны выбрать правильные книги)
Спасибо, в целом это и так давно известно, но действительно интересны тонкости - сбор инфы и её анализ (с примерами, вариантами использованных пакетов и сервисов, причин их выбора и разницу, т.п.).
Конкретно в эту статью полез, увидев в заголовке слово "мифы", но ни одного не нашел. =)) Раскройте, пожалуйста, и эту тему тоже.
Ок, во второй части обязательно учту Ваши пожелания)
Шаблонизированный анализ не работает на любителях непредсказуемой глупости.
К сожалению, люди намного более предсказуемы, чем сами о себе думают)
Такие не интересны.
Очень интересно посмотреть пару кейс ов применительно к России. Сам занимаюсь подобным.
Ок, вторая часть (которая судя по реакции публики, таки будет) как раз посвящена методам и кейсам в России.
Доктор, у меня проблема приватного свойства. Я начал бояться ставить лайки.
Я же знаю, что стоит кому-то где-то лайкнуть, эта информация поступает в соответствующие базы. Компьютеры – они памятливые. Всё помнят. Вечно. И будут тебе до конца жизни это припоминать при каждом удобном случае, как стервозная... [цензурировано: разжигание межполовой розни]. Кому где что понравилось – это ценная маркетинговая информация, её научились обращать в деньги с хорошим коэффициентом. Поэтому ею дорожат, собирают и хранят бережно, продают задорого.
А при каждом лайке тебя идентифицируют. Браузер старается держать пользователя залогиненным во все соцсети и поисковые системы. Не то, что лайк поставить, а даже простой рекламный баннер нельзя посмотреть без того, чтоб тебя аутентифицировали. На всех веб-страницах – есть хоть одна кнопочка, хоть картиночка, хоть скриптик от Фейсбука или Гугла или ещё какой корпорации чужого добра. А если кнопочка принадлежит ФБ, то ей все твои фейсбучные куки открыты.
Иной раз увидишь отличный контент, захочется чем-то отблагодарить автора. Забудешь про свою фобию, потянешься к кнопке "Like"... А тут в голове раздаётся официальный голос: "Предупреждаем. Всё, что вы лайкните, может быть использовано против вас!" Сразу мышку отдёргиваешь.
Доктор, я ведь айтишник. Я же не только знаю, но и зримо себе представляю ту таблицу в БД, где записаны все-все до единого объекты, которые я лайкнул за свою жизнь. Как вообразишь – страшно. Все мои вкусы и пристрастия – как на ладони. Другие, может, не знают об этом или так... туманно представляют. Поэтому и не боятся лайкать. А у меня в голове такая яркая картина: каждый байтик в POST-запросе вижу, каждую SQL-команду.
Из-за этого не могу жить полноценной социальной жизнью. Она же теперь вся – в социальных сетях. Давеча сидим с подругой в ресторане за одним столиком. Она свою тарелку смартфоном щёлкнула и уже через минуту обиженно спрашивает, почему я её пост в Инстаграмме не одобрил, не пожелал ей там приятного аппетита.
Доктор, помогите.
Что говорите? Известная проблема? Описана? Куда идти? Ещё раз адрес по буквам, пожалуйста... Ой, а там же регистрироваться надо. А у меня, знаете ли, есть ещё одна старая фобия...
не только лайки - гугл движения мышкой анализит
В таблицу не влезает, на практике используют NoSQL базы данных (в основном документо-ориентированные, ибо хер их знает что они там в выдаче API нафигачят, не переделывать же потом схему данных в базе и таблички).
А так красота - запрашивай да складывай в коллекцию =)
Все это очень интересно, но отношения к Трампу не имеет. Его выбрали потому, что понимали - бабка это Обама в юбке. Медленная , но неуклонная деградация. А Трамп шел под лозунгом перемен(требуют наши сердца, ага). Но с другой стороны, многие понимают, что данные перемены - это фашистский режим и раскулачивание(Рузвельт золото отбирал, а Трамп будет стрич овец на ценных бумагах). Поэтому Овца назвал его фашистом и объявил войну.
А вот имеет ли всё это отношение к реальному миру? Автор говоря об "объективности данных" из соцсетей, скромно умалчивает не только о кол-ве реальных людей за аккаунтами, но так же не рассматривает "качество" пишущего там контингента, их реальные мотивы и цели.
Страницы