Периодически просматриваю "конкурсы" всякие веселые и интересные для "датааналитиков" ( для организаторов часто принципиально причем ML/NN/AI чтобы использовался) - сейчас несколько платформ появилось, где это уже на поток поставлено.
Само по себе не очень там все - не смотря на порой сложность, крайне примитивные с точки зрения содержания задачи решаются (не смотря порой на крутые призовые), ну и у цЫфровиков реальные проблемы обычно с пониманием сути. Гораздо увлекательней это исходные датасеты, которые выкидывают Взрослые дяди на поиграть.
Так вот если помните писал про классику ( https://aftershock.news/?q=node/1086636 ) - что уже давно не человек всматривается в "интернет", а скорее наоборот, да и "интернет" ли. Про восстановление профилей пользователей с внешне независимых систем за счет агрегирования данных у интеграторов. ( т.е. грубо говоря - вы заходите на один сайт потом на другой , потом что то делаете на мобильнике, потом проходите под камерой по улице, или заправляетесь на заправке - но все это в итоге в одной системе оказывается - типо обезличено бгг).
Недавно вот увидел тематику, что туда и банки подключаются - в принципе не ново - но каковы сорванцы - оказывается снимают трафик прямо с интернет провайдеров, а не систем ))
Вот на скришноте пруф. Описание данных с одного из дата-конкурсов - организатор бело-синий банк.
Или другой конкурс (организатор красно-черный банк) - где участникам предлагается следующий наборчик данных:
-----------------_
Участникам предлагается оценить вероятность того, что клиент выйдет в дефолт, основываясь на истории потребительского поведения по карточным транзакциям.
Подробное описание данных
1. train_transactions_contest/test_transactions_contest - тренировочная и тестовая выборки с транзакционными данными. Файлы в данных папках разбиты по партициям и сохранены в формате parquet. Подробное описание полей:
app_id - Идентификатор заявки. Заявки пронумерованы так, что более поздним заявкам соответствует более поздняя дата
amnt - Нормированная сумма транзакции. 0.0 - соответствует пропускам
currency - Идентификатор валюты транзакции
operation_kind - Идентификатор типа транзакции
card_type - Уникальный идентификатор типа карты
operation_type - Идентификатор типа операции по пластиковой карте
operation_type_group - Идентификатор группы карточных операций, например, дебетовая карта или кредитная карта
ecommerce_flag - Признак электронной коммерции
payment_system - Идентификатор типа платежной системы
income_flag - Признак списания/внесения денежных средств на карту
mcc - Уникальный идентификатор типа торговой точки
country - Идентификатор страны транзакции
city - Идентификатор города транзакции
mcc_category - Идентификатор категории магазина транзакции
day_of_week - День недели, когда транзакция была совершена
hour - Час, когда транзакция была совершена
days_before - Количество дней до даты выдачи кредита
weekofyear - Номер недели в году, когда транзакция была совершена
hour_diff - Количество часов с момента прошлой транзакции для данного клиента
transaction_number - Порядковый номер транзакции клиента
---------------------
В принципе можно было бы уже монографию по теме написать... предсказать так сказать (без AI), чем все закончится, когда все в одно кубло сольется... но...
Кстати описанная в предыдущей заметке по теме задачка тоже есть в качестве конкурса.
Крайний слайд.
Основная ржака - ради чего все это? Обмазались уже петабайтами данных, согнали всех кто хоть немного может по кнопкам на клавиатуре попадать в. ... Ради всего хорошего? Вряд ли...
Или чтобы выжать еще немного грошиков из клиентов? - ну так банки итак лопаются уже от. Непонятно.
P.S. Конкурсы то понятно - скребут по сусекам социальной сапропели ... не ими кстати организованной.
P.s. в камментах началось про приватность... отдельные человечки никому не интересны. Речь про информационную асимметрию экономических агентов - банки это не институты развития, даже если они и государственные. Нет у них такой функции...
Комментарии
1. Это не обязательно провайдеры. Это могут быть браузеры, всякие файерволы программные, всякие антивирусы, плюс всеми любимые VPN.
2. Matching позволяет определить пользователя по профилю, найти его родственников, друзей и прочее. Те нет необходимости осуществлять вход по логину и идентифицировать себя явно. Гуголь, Яндекс и так могут понять что вы - это вы. И подтянуть профиль. А там и интересы, и друзья и увлечения и прочее.
3. Это идёт торговля данными вашими. В частности профилями для высокоточной рекламы.
4. Банки опосредованно или напрямую принадлежат владельцам ФРС. Что им надо то и делают. Глобальный концлагерь и даже не рабство, а как домашний скот.
3. Продавать сырые данные это не очень выгодно) проще продавать рекламу, профилирование целевой аудитории и тд. Да и сырые данные нужно только очень специфичным платформам и нет гарантии, что они не начнут из этих кусках данных предсказывать и другие или вытащат оценки по сети, объеме пользователей.
4. Домашний скот в голове, а не в данных. Какая фрс? У вас любой склад данные собирает, любой магазин. Авито собирает данные, профилирует.
Люди предсказуемы, чем больше они разделены - тем больше подвержены маркетингу и рекламе.
Это все конечно круто, но как по мне. провайдеры и так все продадут с вашим уник идентификатопром. Винда, кстати, вроде уже давно тупо с клавы снимает и болт они ложили.
Да и так все будет по паспорту, можно подумать сорм не так работает. Паспортный id и ниипет. ))
Так, игры это все на низком уровне. На гос уровне в инет скоро и так по паспорту сделают, и нече усложнять )) В Китае уже давно эта матрица.
С точки зрения плюса экономике тут выигрыша никакого. Законодательством проще. Грубо говоря соц рейтинг и все. и так понятно будет, кто серьезный, а кто лох, вечно в дефолтах. Экономия на брутто массе - только на кол-ве людей кто в банках всей этой байдой занимается. А еще цифровые деньги будут скоро. Печать на чело, без которой ни куда (да хоть бы и не на чело, карточка, на руке, в руке - без разницы).
Мне странно, что вообще до сих пор одним 1d все документы не обходятся, бюрократию могли бы всю на заводы и шахты разогнать ))
И еще раз. Уник идентификатор мало что даст. Пользователи подключаются из 10ка мест. А так у вас будет только условно домашний профиль. А нужно связать и дом и работу, чтобы на работе показывать то, что нужно для дома.
Вы упрощаете. Вас можно идентифицировать и без паспорта. Связать профили, найти семейные связи.
Я был удивлен, но за интернет по паспорту большая часть ИТ специалистов)
Бюрократия отражает сложность системы. В союзе все решалось на собраниях, потом партии, как усложнилось, так и трещать начало.
Сокращение бюрократи = упрощению, иначе, все расползется. Тут или на другую менять, либо на картательные отряды, либо жестко форматировать людей.
Могут быть, но тут Ростелеком написано поэтому и удивился
причем он там DPI с тематическим анализом делает...
ради того, что модно под разговоры про ИИ..
Утилизация мозгов айтишников методом выжигания в бессмысленной работе. А то вдруг думать начнут. Зачем это надо.
Скрытый эквивалент социального рейтинга. Для перепродажи информации третьей стороне.
А если не будут брать(правильно голосовать) - отключим газ!
В Китае, вполне официально, люди с низким соц рейтингом не обязательно смогут купить билет на ж/д транспорт?
Это когда не человек определяет кто он есть. А человека определяет что он "ест"(в информационном плане, с индивидуальной обратной связью и после многочисленных тестов чем кормить).
Сразу протестируют затем сделают как в Китае(там все еще в тестовых режимах все проходит).
Когда все исследуется без предупреждения - люди не скрывают "открытую" информацию о себе и конфиденциальную информацию о людях можно собрать в разы более точную. И затем все это будет публично в даркнете со всеми ФИО.
Людей банки поселят информационные клетки и границы. Т.е. это будет тюрьма даже без стен и электронного ошейника в размером в глобус или отдельные регионы(когда свобода только на словах).
Но зато можно будет в этом человейнике убрать полицию оружие конфликты и в пределе войны - только вот придется внедрить эвтаназию и отстрел в реальном времени некоторых буйных кто, не хочет влезть в шкуру домашнего дрессированного животного. Возможно даже придется изменить переписать гены людей через прививки и эпидемии. Кому это кажется смешным - Бил Гейтс уже открыто заявлял о вырезании гена буйности и терроризма(равно элитарности и свободы для создания послушных людей манкуртов) через искусственные эпидемии(были ссылки на АШ на видео и есть репост в моих комментариях про Б. Гейтса, но псевдо движок форума вряд ли позволит найти это видео).
На комарах или посложнее уже наверное массовое генное вмешательство уже протестировано.
Когда работал в УкрСибе на Украине, лет эдак 15-20 назад, заключили договора с коммунальщиками на обслуживание в терминалах АБС. Коммунальщики в рамках договора присылали данные по задолженностям - формально чтобы юзерам было удобно себя найти в системе по адресу (не все помнят лицевой счет). Вообще, система получилась очень удобная и клиентов было море, но.. не приносила особо доход, т.е. была более для привлечения клиентов.
Так вот... этой системой пользовались наши кредитчики чтобы оценивать стоит ли выдавать кредит :). Банально и просто - смотришь задолженность и всё, решение принято :).
все проще. Составляется психотип каждого человека, затем, вычисляется кто на каком оборонном заводе работает. Затем ему в ленту пихают материалы, которые модулируют эмоциональное состояние, затем делается подход на предмет вербовки/продажи технологий/гос тайны.
Имеет ли смысл вербовать тех, кто на такую фигню ведётся. На ключевые посты таких не берут.
Если родственники людей, сидящих на важных постах начнут впадать в истерики и моачнуюмеланхолию, то как это скажется на их производительности труда?
Не нужно недооценивать этого. Штаты работают по стратегии "смерть от тысячи порезов".
Не эффективная техника, во всяком случае не сейчас и не против нас.
все равно будут пробовать.
Ну тады, флаг им в зубы и камень на шею.
Зачем банкирам столько данных - у них итак вроде все супер-пупер? Не интересно.
Простому обывателю - не участнику конкурса - начинать переживать?
Недавно на работе коллега грязно изругался словом курва. Я ради смеха, загуглил происхождение этого слова и как звучат аналоги на разных языках.
Гугл выдал результат, я прочитал вслух, поржали. Всю следующую неделю инста мне предлагала дома отдыха, массаж и путан...
Дома использую WIFI для всех устройств.
Купил телик, тоже подключил к WIFI, но принципиально не стал логиниться под какой либо учеткой, уж тем более гугловой.
На неделе в телефоне появляется пуш уведомление гугла "так че, давай уже в телик залогинимся под твоей учеткой?"
Дык, а ip вы думаете не отслеживается?)
Сравнили ip, сравнили профили, еще немного магии и найдена связь)
Плюс всякие технологии по поиску близлежащих устройств))
Источник-то где?
надо же, подлые буржуины поцреотов пересчитают на артишоке... и узнают, что это одни боты... вот ужос-то будет!
мы все давно под колпаком, расслабьтесь. Наши данные давным-давно слиты и проданы-перепроданы десяток раз.
Перспективный чат детектед! Сим повелеваю - внести запись в реестр самых обсуждаемых за последние 4 часа.
в камментах началось про приватность... отдельные человечки никому не интересны. Речь про информационную асимметрию экономических агентов - банки это не институты развития даже государственные
"Чтобы стоять на месте надо быстро бежать вперед". К примеру, более точная оценка вероятности дефолта увеличит число заемщиков при сокращении числа неплательщиков, что позволит снизить проценты по кредитам и перетянуть клиентов других банков
Самое забавное, что за эти большие данные и машинное обучение платят огромные деньги дата инженерам, которые не несут ответственности ровным счетом не за что. Типа они составили модель это клиент попал, ему отказали (хотя не факт что он плохой) другой не попал но деньги слил - ну не получилось, "мы будем дообучать алгоритм"
Деньги попросту в никуда.
Моя контора начала привлекать дата инженеров не к прогнозным задачам и дашбордикам для руководства, а для проводки транзакций.
На вопрос, что делать если напортачили с пайплайном и в оплату пошли кривые проводки адекватно не ответил ни кто. Лучший ответ - спрошу руководителя что делать.
Разпиарена эта биг дата и машинное обучение сверх меры. Практической пользы бизнесу с гулькин нос.
ну не совсем в никуда конечно - есть счетные параметры от повышения эффективности наверняка
но тут речь больше про экономику - чтобы с этими данными мог сделать минэкораз-минпромторг например или региональные тарифщики... - чудовищные затраты чтобы лишним "кредитом" нагрузить? мда
Для того и устраивают конкурсы, чтобы выбрать боле-мене эффективные решения, а по внутреннему заказу программисты заинтересованы сделать быстро и "как получится", бо каждый второй программист уверен, что в его коде нет ошибок.
Конкретно в этом случае это скорее подбор персонала такой... https://ods.ai/competitions/dl-fintech-card-transactions/data
Я не про этот кейс. Мы делали мероприятие one day offer.
Дата инженеры не знали на какие проекты их собеседуют. Их одним днем собеседовали и технари и владельцы продуктов.
Ни кто из кандидатов не был готов нести ответственность за свою работу.