“Я 10 лет назад”. Безобидная игра или сбор данных о нас?

Аватар пользователя Tima_bes

“Я 10 лет назад”. Безобидная игра или сбор данных о нас?

Случится ли что-то ужасное, если вы опубликуете уже использованные общедоступные фотографии на вашей стене? Если за контекстом стояла игра, вы можете участвовать, но с пониманием, кто именно должен был иметь доступ к фотографиям и для какой цели. Кейт О’Нилл для WIRED.

Разумеется, они знают

Если вы пользуетесь соцсетями, то скорее всего уже заметили очередной тренд на Фейсбуке, в Инстаграме и Твиттере, когда люди выкладывают свои фотографии рядом со своими фотографиями десятилетней давности в формате тогда-и-сейчас (then-and-now).

Вместо того, чтобы присоединиться к флешмобу, я опубликовала такой саркастичный твит:

Я 10 лет назад: скорее всего поиграла бы во флешмоб со “стареющими” аватарками, гуляющему по просторам интернета.

Я сейчас: раздумываю, как же все эти данные могут быть задействованы для обучения алгоритмов систем распознавания лиц – возрастных изменений и распознавания возраста.

Мой легкомысленный твит стал набирать обороты. Я не собиралась утверждать, что этот мем по своей сути опасен. Но я знала, что сценарий с распознаванием лиц довольно правдоподобен и свидетельствует о тенденциях, о которых людям лучше быть в курсе. Это будет не лишним, учитывая всю глубину и широту личных данных, которые мы распространяем без каких-либо оговорок.

Из тех, кто критично отнесся к моему тезису, многие утверждали, что все изображения и фотографии уже так или иначе были в открытом доступе. Самый распространённым опровержением было: “Эти данные уже доступны. Фейсбук располагает всеми фотографиями с профилей”.

Разумеется, они знают. Во многих вариациях этого флешмоба людей проинструктировали опубликовать их самый первый аватар параллельно с нынешним, или наоборот, фотографию десятилетней давности рядом с последней. Так что все верно: эти фотографии профилей существуют, на них на всех указаны даты и время публикации, у многих людей таких фотографий много, и в большинстве случаев они доступны общественности.  

Но давайте обыграем эту идею.

Представьте, что вы хотите обучить систему распознавания лиц алгоритму, основываясь на возрастных характеристиках и особенностях, в частности, на визуализации старения (например, как люди предположительно будут выглядеть с годами). В идеале вам понадобится широкий и тщательный набор данных с множеством фотографий людей. Было бы неплохо, если бы вы также знали, что между фотографиями прошло определенное число лет – допустим, 10.

Тщательно отобранный массив данных

Конечно, вы можете “копать” Фейсбук в поисках аватарок, изучая даты их опубликования и их информацию формата EXIF (метаданные снимков и медиафайлов – их параметры, методы их получения и обработки). Но весь этот массив профильных изображений может в конечном итоге сгенерировать лишний “шум”. Люди не всегда загружают свои фотографии в хронологическом порядке, и довольно часто пользователи используют изображения не их самих, а чего-то другого для своих профилей. Пробегаю глазами по аватаркам моих друзей на Фейсбуке – у кого-то висит фотография их недавно умершей собаки, а у кого-то изображения слов, абстракции, комиксы и многое другое.

Другими словами, для вашей цели вам бы пригодился чистый, простой, и наглядно промаркированный хештегом набор фотографий тогда-и-сейчас.  

Более того, относительно профильных фотографий на Фейсбуке, даты публикации фотографии не всегда совпадают с датой, когда эта фотография была сделана. Даже метаданные EXIF конкретного снимка не всегда достоверно определяют дату съемки.

Почему? Некоторые могли отсканировать фотографии оффлайн. Могли загрузить одни и те же изображения несколько раз на протяжении нескольких лет. Другие используют скриншоты фотографий, найденных онлайн где-то еще в интернете. Некоторые платформы не поддерживают формат EXIF в целях защиты и неприкосновенности персональных данных.

А с помощью мема на Фейсбуке большое количество людей стали любезно добавлять такой контекст в виде «я в 2008, и я в 2018», часто предоставляя еще более подробную информацию, где и как именно была сделана эта фотография – «2008, в таком-то университете, сделана Джо; 2018, посетили Новый Город для такого-и-такого события этого года»

Другими словами, благодаря этому мему теперь существует очень большой массив данных с тщательно отобранными фотографиями людей, сделанных с разницей в десять лет.

Конечно, не все пренебрежительные комментарии в моем Твиттере были об открытом доступе к уже имеющимся фотографиям. Некоторые скептики отметили, что существует слишком много некачественных данных, чтобы их как-то задействовать. Однако специалисты по анализу данных и ученые знают, как проводить учет. Как и в ситуации с вирусными хештегами, как правило, вы можете полагаться на достоверность данных в начале тренда или кампании — до того, как люди похищают хештег и начинают использовать его не по назначению.

Что касается поддельных фотографий, алгоритмы распознавания изображений достаточно высокоразвиты/высокотехнологичны, чтобы различить человеческое лицо. Если вы загрузили изображение кота 10 лет назад и сейчас — как трогательно поступил один из моих друзей, – от этого конкретного образца будет очень легко избавиться при отборе.  

Со своей стороны, Фейсбук отрицает любую причастность к популярности хештега Челлендж 10-ти лет (the #10YearChallenge). “Этот мем был сгенерирован пользователями и стал вирусным благодаря их инициативе,” заявил представитель Фейсбука. “Фейсбук не начинал этот тренд, и этот мем использует фотографии, которые уже существовали на платформе. Фейсбук не получает никакой выгоды от этого мема (всего лишь напомнив нам о сомнительных модных тенденциях 2009 года). В качестве напоминания, пользователи Фейсбука могут включить программу “распознавание” или отключить в любое время.”

Зачем им знать, как мы стареем

Но даже если именно этот конкретный мем не является случаем социальной инженерии, последние несколько лет изобиловали примерами распространения социальных игр и флешмобов, разработанных специально для извлечения и сбора данных. Просто вспомните о массовых извлечениях и сборах данных более чем 70 миллионов пользователей Фейсбука, осуществленных Кембридж Аналитика (Cambridge Analytica).

Разве это плохо, что кто-то может использовать ваши фотографии из Фейсбука для обучения алгоритма распознавания лица? Не обязательно; в некотором смысле, это неизбежно. Тем не менее, отсюда следует вынести, что нам стоит отдавать себе отчет во всех наших взаимодействиях с технологиями, помня о том, что мы генерируем данные, которые могут быть использованы и применены в широких масштабах. Я могу представить три возможных сценария использования программ распознавания лиц: один из них благоприятный, один обыденный, и один рискованный.

Благоприятный сценарий: технология распознавания лиц, в частности, возможность отследить динамику старения, может помочь в поиске пропавших детей. В прошлом году полиция Нью-Дели доложила, что удалось отследить почти три тысячи пропавших детей всего за четыре дня, с использованием только технологии распознавания лиц. Если дети числились пропавшими на протяжении какого-то времени, будет логично предположить, что они будут несколько отличаться по сравнению со своими последними известными фотографиями. В этом случае достоверная визуализация старения будет действительно полезной.

Повседневный потенциал для распознавания лиц: распознавание возраста скорее всего будет наиболее полезным для целевой рекламы. Дисплейная реклама со встроенными камерами или датчиками, которая сможет адаптировать и ориентировать рекламный материал в зависимости от возрастной группы (а также других визуально узнаваемых характеристик и различимых ситуаций) во всей вероятности вскоре станет распространенным явлением. Данное применение не такое уж и захватывающее, но зато оно сможет сделать рекламную индустрию более актуальной. Но как только поток данных “течет вниз” (от сервера к клиенту) и переплетается с нашими координатами местоположения, ответной реакцией, покупательской способностью, и другими сигналами, в результате он часто выявляет по-настоящему странные взаимоотношения.

Как и в случае многих формирующихся и развивающихся технологий, появление новой чревато серьезными последствиями. Симуляция старения может стать важным фактором в оценке социального страхования и здравоохранения. Например, может показаться, что вы стареете быстрее, чем ваши ровесники, а значит, вы более подвержены наступлению страхового риска. В таком случае вам может быть отказано в страховом обеспечении; возможно, полис обойдется вам дороже.

После того, как на Амазоне (Amazon) в конце 2016 года были представлены услуги с применением распознавания лиц в реальном времени, эти же услуги стали продавать и правоохранительным и государственным органам, например, департаментам полиции Орландо и в округе Вашингтон, штате Орегон. Но эти технологии вызывают серьезные опасения в вопросах конфиденциальности; полиция может использовать их не только для отслеживания людей, которые подозреваются в совершении преступлений, но и тех, которые не совершали преступлений, например, протестующих, и других – кого полиция считает помехой.

Американский союз защиты гражданских свобод (The American Civil Liberties Union) попросил Амазон прекратить продажу этих услуг. Так же поступила и часть акционеров и работников Амазона, ссылаясь на беспокойство по поводу оценки и репутации их компании.

Опасно ли это? – вряд ли, но задуматься стоит

Очень трудно переоценить всю полноту того, как именно технологии могут повлиять на человечество. У нас есть все возможности, чтобы усовершенствовать их, но для этого мы также должны распознать и оценить ситуации, при которых все может стать хуже.  Как только мы поймем проблемы и опасности, только тогда мы будем в праве выносить вердикт.

Почему это так важно для нас, и важно ли вообще? Случится ли что-то ужасное, если вы опубликуете уже использованные общедоступные фотографии на вашей стене? Опасно ли обучение алгоритмов для распознавания лиц, симуляции возрастных изменений, и опознания возраста? Вряд ли.

Независимо от происхождения или намерения этого мема, мы все должны включать смекалку и думать, какими данными мы оперируем и делимся, кому мы предоставляем доступ к нашей информации, и о последствиях ее использования. Если за контекстом стояла игра, которая недвусмысленно указала, что главной ее целью был сбор фотографий тогда-и-сейчас для изучения прогрессии старения, возраст прогрессии исследований, вы можете участвовать, но с пониманием, кто именно должен был иметь доступ к фотографиям и для какой цели.

Более широкая концепция состоит в том, что, не учитывая специфику мемов или какой-либо одной социальной платформы, люди – самые богатые источники данных для большинства технологий, возникающих в мире. Мы должны помнить об этом и проявлять должную осмотрительность и аккуратность.

Люди являются связующим звеном между физическим и цифровым мирами. Человеческие взаимодействия – это то, что делает Интернет-Вещей (the Internet of Things) интересным. Наши данные являются топливом, которые делают бизнесы умнее, хитрее и прибыльнее.

Мы должны требовать от предприятий, чтобы они любыми средствами относились к нашим данным с должным уважением. Но и нам самим следует относиться так же к нашей собственной информации. 

Авторство: 
Копия чужих материалов

Комментарии

Аватар пользователя mentat
mentat(12 лет 5 месяцев)

У google photos (да и любого  фото/файлового сервиса)  есть идеальная база. А одна фотка сейчас/одна 10 лет назад - так себе обучающая выборка

Аватар пользователя Tima_bes
Tima_bes(5 лет 4 месяца)

Суть в том, что при помощи социальной инженерии была облегчена работа программиста до минимума.  Пользователь сам подготовил данные для обработки.  Бери пользуйся.  Если  он там конечно был - этот скрытый тайный мотив. 

Комментарий администрации:  
*** Отключен (инфомусор) ***
Аватар пользователя Ernst
Ernst(9 лет 1 неделя)

Да там работы на один запрос SQL. 

Аватар пользователя Many
Many(6 лет 9 месяцев)

Чувствуется глубокое знание как SQL так и устройства социальных сетей, лол.

И как, у вас хорошо получается нейросети на SQL запросах писать?

Комментарий администрации:  
*** Ради красного словца, придумал внука-сорванца! ***
Аватар пользователя Ernst
Ernst(9 лет 1 неделя)

Я не про нейросеть, а про выборку фотографий, сделанных с интервалом в 10 лет.

Аватар пользователя Tima_bes
Tima_bes(5 лет 4 месяца)

Автор  пишет про какие-то "шумы" в обычной выборке. А тут просто по хештегу данные прилетают по заданному параметру. особо сильно заморачиваться с обработкой не нужно. Все  структурировано.  Удобно же,  хоть в ручную анализируй  )

Комментарий администрации:  
*** Отключен (инфомусор) ***
Аватар пользователя Ernst
Ernst(9 лет 1 неделя)

Ну разве что...

Аватар пользователя UristMcKerman
UristMcKerman(5 лет 9 месяцев)

Фейсбук уже располагает подборкой фотографий лиц с проставленными данными: дата, местоположение, время суток. Но как контрольная выборка для проверки узнавания людей в разные годы жизни пойдет. Имхо даже если и правда, для американцев, публикующих в соцсетях что они едят, что они смотрят и слушают, даже интимную информацию, переживать из-за #10YearChallenge - глупо. Потерямши голову о шапке не плачут.

Аватар пользователя Redvook
Redvook(11 лет 1 месяц)

Да, не прошло и пары десятков лет, как они начали о чем-то догадываться. smiley

Аватар пользователя UristMcKerman
UristMcKerman(5 лет 9 месяцев)

А кстати возможна и такая версия: хештег был запущен как раз-таки фейсбуком или АНБ чтобы отпраздновать десятилетие какого-нибудь секретного проекта по распознаванию лиц. Тупо поржать над плебсом. Я б так сделал

Аватар пользователя ДОК
ДОК(7 лет 7 месяцев)

Поздно, батенька, поздно...

Аватар пользователя Тех Алекс
Тех Алекс(8 лет 11 месяцев)

Одноклассники подключились к акции сегодня. Такая независимая независимость.

Аватар пользователя Reyders
Reyders(6 лет 10 месяцев)

Аватар пользователя Reyders
Reyders(6 лет 10 месяцев)

Аватар пользователя Reyders
Reyders(6 лет 10 месяцев)

Аватар пользователя Мих
Мих(5 лет 10 месяцев)

Сомнительное дело - размещать свои фото. Тщеславие пощекотать? 

Аватар пользователя oтсюда
oтсюда(1 неделя 1 день)

Хорошая статья. smile9.gifsmile3.gif Живой пример надсистемного мышления: выход за рамки своего Я и попытка осмыслить происходящее с другой стороны. 

Это один из ключевых навыков квантового мышления. 

Что же касается этого:

Люди являются связующим звеном между физическим и цифровым мирами.

То в будущем, - где-то в квантовой эре, если мы будем представлять из себя полноценное самоосознанное  общество, грани между цифровым и физическим миром не будет. Тут имею ввиду, что интернет следует готовить к деанонимизации. 

Разделение же в этом вопросе будет усугублять проблему шизофрении и раздвоения личности, а это огромный пласт психических расстройств разной степени тяжести.

Так что готовиться к этому переходу нужно с двух сторон одновременно... и желательно начать уже вчера.