“Я 10 лет назад”. Безобидная игра или сбор данных о нас?

Аватар пользователя Tima_bes

“Я 10 лет назад”. Безобидная игра или сбор данных о нас?

Случится ли что-то ужасное, если вы опубликуете уже использованные общедоступные фотографии на вашей стене? Если за контекстом стояла игра, вы можете участвовать, но с пониманием, кто именно должен был иметь доступ к фотографиям и для какой цели. Кейт О’Нилл для WIRED.

Разумеется, они знают

Если вы пользуетесь соцсетями, то скорее всего уже заметили очередной тренд на Фейсбуке, в Инстаграме и Твиттере, когда люди выкладывают свои фотографии рядом со своими фотографиями десятилетней давности в формате тогда-и-сейчас (then-and-now).

Вместо того, чтобы присоединиться к флешмобу, я опубликовала такой саркастичный твит:

Я 10 лет назад: скорее всего поиграла бы во флешмоб со “стареющими” аватарками, гуляющему по просторам интернета.

Я сейчас: раздумываю, как же все эти данные могут быть задействованы для обучения алгоритмов систем распознавания лиц – возрастных изменений и распознавания возраста.

Мой легкомысленный твит стал набирать обороты. Я не собиралась утверждать, что этот мем по своей сути опасен. Но я знала, что сценарий с распознаванием лиц довольно правдоподобен и свидетельствует о тенденциях, о которых людям лучше быть в курсе. Это будет не лишним, учитывая всю глубину и широту личных данных, которые мы распространяем без каких-либо оговорок.

Из тех, кто критично отнесся к моему тезису, многие утверждали, что все изображения и фотографии уже так или иначе были в открытом доступе. Самый распространённым опровержением было: “Эти данные уже доступны. Фейсбук располагает всеми фотографиями с профилей”.

Разумеется, они знают. Во многих вариациях этого флешмоба людей проинструктировали опубликовать их самый первый аватар параллельно с нынешним, или наоборот, фотографию десятилетней давности рядом с последней. Так что все верно: эти фотографии профилей существуют, на них на всех указаны даты и время публикации, у многих людей таких фотографий много, и в большинстве случаев они доступны общественности.  

Но давайте обыграем эту идею.

Представьте, что вы хотите обучить систему распознавания лиц алгоритму, основываясь на возрастных характеристиках и особенностях, в частности, на визуализации старения (например, как люди предположительно будут выглядеть с годами). В идеале вам понадобится широкий и тщательный набор данных с множеством фотографий людей. Было бы неплохо, если бы вы также знали, что между фотографиями прошло определенное число лет – допустим, 10.

Тщательно отобранный массив данных

Конечно, вы можете “копать” Фейсбук в поисках аватарок, изучая даты их опубликования и их информацию формата EXIF (метаданные снимков и медиафайлов – их параметры, методы их получения и обработки). Но весь этот массив профильных изображений может в конечном итоге сгенерировать лишний “шум”. Люди не всегда загружают свои фотографии в хронологическом порядке, и довольно часто пользователи используют изображения не их самих, а чего-то другого для своих профилей. Пробегаю глазами по аватаркам моих друзей на Фейсбуке – у кого-то висит фотография их недавно умершей собаки, а у кого-то изображения слов, абстракции, комиксы и многое другое.

Другими словами, для вашей цели вам бы пригодился чистый, простой, и наглядно промаркированный хештегом набор фотографий тогда-и-сейчас.  

Более того, относительно профильных фотографий на Фейсбуке, даты публикации фотографии не всегда совпадают с датой, когда эта фотография была сделана. Даже метаданные EXIF конкретного снимка не всегда достоверно определяют дату съемки.

Почему? Некоторые могли отсканировать фотографии оффлайн. Могли загрузить одни и те же изображения несколько раз на протяжении нескольких лет. Другие используют скриншоты фотографий, найденных онлайн где-то еще в интернете. Некоторые платформы не поддерживают формат EXIF в целях защиты и неприкосновенности персональных данных.

А с помощью мема на Фейсбуке большое количество людей стали любезно добавлять такой контекст в виде «я в 2008, и я в 2018», часто предоставляя еще более подробную информацию, где и как именно была сделана эта фотография – «2008, в таком-то университете, сделана Джо; 2018, посетили Новый Город для такого-и-такого события этого года»

Другими словами, благодаря этому мему теперь существует очень большой массив данных с тщательно отобранными фотографиями людей, сделанных с разницей в десять лет.

Конечно, не все пренебрежительные комментарии в моем Твиттере были об открытом доступе к уже имеющимся фотографиям. Некоторые скептики отметили, что существует слишком много некачественных данных, чтобы их как-то задействовать. Однако специалисты по анализу данных и ученые знают, как проводить учет. Как и в ситуации с вирусными хештегами, как правило, вы можете полагаться на достоверность данных в начале тренда или кампании — до того, как люди похищают хештег и начинают использовать его не по назначению.

Что касается поддельных фотографий, алгоритмы распознавания изображений достаточно высокоразвиты/высокотехнологичны, чтобы различить человеческое лицо. Если вы загрузили изображение кота 10 лет назад и сейчас — как трогательно поступил один из моих друзей, – от этого конкретного образца будет очень легко избавиться при отборе.  

Со своей стороны, Фейсбук отрицает любую причастность к популярности хештега Челлендж 10-ти лет (the #10YearChallenge). “Этот мем был сгенерирован пользователями и стал вирусным благодаря их инициативе,” заявил представитель Фейсбука. “Фейсбук не начинал этот тренд, и этот мем использует фотографии, которые уже существовали на платформе. Фейсбук не получает никакой выгоды от этого мема (всего лишь напомнив нам о сомнительных модных тенденциях 2009 года). В качестве напоминания, пользователи Фейсбука могут включить программу “распознавание” или отключить в любое время.”

Зачем им знать, как мы стареем

Но даже если именно этот конкретный мем не является случаем социальной инженерии, последние несколько лет изобиловали примерами распространения социальных игр и флешмобов, разработанных специально для извлечения и сбора данных. Просто вспомните о массовых извлечениях и сборах данных более чем 70 миллионов пользователей Фейсбука, осуществленных Кембридж Аналитика (Cambridge Analytica).

Разве это плохо, что кто-то может использовать ваши фотографии из Фейсбука для обучения алгоритма распознавания лица? Не обязательно; в некотором смысле, это неизбежно. Тем не менее, отсюда следует вынести, что нам стоит отдавать себе отчет во всех наших взаимодействиях с технологиями, помня о том, что мы генерируем данные, которые могут быть использованы и применены в широких масштабах. Я могу представить три возможных сценария использования программ распознавания лиц: один из них благоприятный, один обыденный, и один рискованный.

Благоприятный сценарий: технология распознавания лиц, в частности, возможность отследить динамику старения, может помочь в поиске пропавших детей. В прошлом году полиция Нью-Дели доложила, что удалось отследить почти три тысячи пропавших детей всего за четыре дня, с использованием только технологии распознавания лиц. Если дети числились пропавшими на протяжении какого-то времени, будет логично предположить, что они будут несколько отличаться по сравнению со своими последними известными фотографиями. В этом случае достоверная визуализация старения будет действительно полезной.

Повседневный потенциал для распознавания лиц: распознавание возраста скорее всего будет наиболее полезным для целевой рекламы. Дисплейная реклама со встроенными камерами или датчиками, которая сможет адаптировать и ориентировать рекламный материал в зависимости от возрастной группы (а также других визуально узнаваемых характеристик и различимых ситуаций) во всей вероятности вскоре станет распространенным явлением. Данное применение не такое уж и захватывающее, но зато оно сможет сделать рекламную индустрию более актуальной. Но как только поток данных “течет вниз” (от сервера к клиенту) и переплетается с нашими координатами местоположения, ответной реакцией, покупательской способностью, и другими сигналами, в результате он часто выявляет по-настоящему странные взаимоотношения.

Как и в случае многих формирующихся и развивающихся технологий, появление новой чревато серьезными последствиями. Симуляция старения может стать важным фактором в оценке социального страхования и здравоохранения. Например, может показаться, что вы стареете быстрее, чем ваши ровесники, а значит, вы более подвержены наступлению страхового риска. В таком случае вам может быть отказано в страховом обеспечении; возможно, полис обойдется вам дороже.

После того, как на Амазоне (Amazon) в конце 2016 года были представлены услуги с применением распознавания лиц в реальном времени, эти же услуги стали продавать и правоохранительным и государственным органам, например, департаментам полиции Орландо и в округе Вашингтон, штате Орегон. Но эти технологии вызывают серьезные опасения в вопросах конфиденциальности; полиция может использовать их не только для отслеживания людей, которые подозреваются в совершении преступлений, но и тех, которые не совершали преступлений, например, протестующих, и других – кого полиция считает помехой.

Американский союз защиты гражданских свобод (The American Civil Liberties Union) попросил Амазон прекратить продажу этих услуг. Так же поступила и часть акционеров и работников Амазона, ссылаясь на беспокойство по поводу оценки и репутации их компании.

Опасно ли это? – вряд ли, но задуматься стоит

Очень трудно переоценить всю полноту того, как именно технологии могут повлиять на человечество. У нас есть все возможности, чтобы усовершенствовать их, но для этого мы также должны распознать и оценить ситуации, при которых все может стать хуже.  Как только мы поймем проблемы и опасности, только тогда мы будем в праве выносить вердикт.

Почему это так важно для нас, и важно ли вообще? Случится ли что-то ужасное, если вы опубликуете уже использованные общедоступные фотографии на вашей стене? Опасно ли обучение алгоритмов для распознавания лиц, симуляции возрастных изменений, и опознания возраста? Вряд ли.

Независимо от происхождения или намерения этого мема, мы все должны включать смекалку и думать, какими данными мы оперируем и делимся, кому мы предоставляем доступ к нашей информации, и о последствиях ее использования. Если за контекстом стояла игра, которая недвусмысленно указала, что главной ее целью был сбор фотографий тогда-и-сейчас для изучения прогрессии старения, возраст прогрессии исследований, вы можете участвовать, но с пониманием, кто именно должен был иметь доступ к фотографиям и для какой цели.

Более широкая концепция состоит в том, что, не учитывая специфику мемов или какой-либо одной социальной платформы, люди – самые богатые источники данных для большинства технологий, возникающих в мире. Мы должны помнить об этом и проявлять должную осмотрительность и аккуратность.

Люди являются связующим звеном между физическим и цифровым мирами. Человеческие взаимодействия – это то, что делает Интернет-Вещей (the Internet of Things) интересным. Наши данные являются топливом, которые делают бизнесы умнее, хитрее и прибыльнее.

Мы должны требовать от предприятий, чтобы они любыми средствами относились к нашим данным с должным уважением. Но и нам самим следует относиться так же к нашей собственной информации. 

Авторство: 
Копия чужих материалов

Комментарии

Аватар пользователя mentat
mentat(12 лет 11 месяцев)

У google photos (да и любого  фото/файлового сервиса)  есть идеальная база. А одна фотка сейчас/одна 10 лет назад - так себе обучающая выборка

Аватар пользователя Tima_bes
Tima_bes(5 лет 10 месяцев)

Суть в том, что при помощи социальной инженерии была облегчена работа программиста до минимума.  Пользователь сам подготовил данные для обработки.  Бери пользуйся.  Если  он там конечно был - этот скрытый тайный мотив. 

Комментарий администрации:  
*** Отключен (инфомусор) ***
Аватар пользователя Ernst
Ernst(9 лет 6 месяцев)

Да там работы на один запрос SQL. 

Аватар пользователя Many
Many(7 лет 3 месяца)

Чувствуется глубокое знание как SQL так и устройства социальных сетей, лол.

И как, у вас хорошо получается нейросети на SQL запросах писать?

Комментарий администрации:  
*** Ради красного словца, придумал внука-сорванца! ***
Аватар пользователя Ernst
Ernst(9 лет 6 месяцев)

Я не про нейросеть, а про выборку фотографий, сделанных с интервалом в 10 лет.

Аватар пользователя Tima_bes
Tima_bes(5 лет 10 месяцев)

Автор  пишет про какие-то "шумы" в обычной выборке. А тут просто по хештегу данные прилетают по заданному параметру. особо сильно заморачиваться с обработкой не нужно. Все  структурировано.  Удобно же,  хоть в ручную анализируй  )

Комментарий администрации:  
*** Отключен (инфомусор) ***
Аватар пользователя Ernst
Ernst(9 лет 6 месяцев)

Ну разве что...

Аватар пользователя UristMcKerman
UristMcKerman(6 лет 3 месяца)

Фейсбук уже располагает подборкой фотографий лиц с проставленными данными: дата, местоположение, время суток. Но как контрольная выборка для проверки узнавания людей в разные годы жизни пойдет. Имхо даже если и правда, для американцев, публикующих в соцсетях что они едят, что они смотрят и слушают, даже интимную информацию, переживать из-за #10YearChallenge - глупо. Потерямши голову о шапке не плачут.

Аватар пользователя Redvook
Redvook(11 лет 7 месяцев)

Да, не прошло и пары десятков лет, как они начали о чем-то догадываться. smiley

Аватар пользователя UristMcKerman
UristMcKerman(6 лет 3 месяца)

А кстати возможна и такая версия: хештег был запущен как раз-таки фейсбуком или АНБ чтобы отпраздновать десятилетие какого-нибудь секретного проекта по распознаванию лиц. Тупо поржать над плебсом. Я б так сделал

Аватар пользователя ДОК
ДОК(8 лет 1 месяц)

Поздно, батенька, поздно...

Аватар пользователя Тех Алекс
Тех Алекс(9 лет 5 месяцев)

Одноклассники подключились к акции сегодня. Такая независимая независимость.

Аватар пользователя Reyders
Reyders(7 лет 4 месяца)

Аватар пользователя Reyders
Reyders(7 лет 4 месяца)

Аватар пользователя Reyders
Reyders(7 лет 4 месяца)

Аватар пользователя Мих
Мих(6 лет 4 месяца)

Сомнительное дело - размещать свои фото. Тщеславие пощекотать? 

Аватар пользователя oтсюда
oтсюда(6 месяцев 1 неделя)

Хорошая статья. smile9.gifsmile3.gif Живой пример надсистемного мышления: выход за рамки своего Я и попытка осмыслить происходящее с другой стороны. 

Это один из ключевых навыков квантового мышления. 

Что же касается этого:

Люди являются связующим звеном между физическим и цифровым мирами.

То в будущем, - где-то в квантовой эре, если мы будем представлять из себя полноценное самоосознанное  общество, грани между цифровым и физическим миром не будет. Тут имею ввиду, что интернет следует готовить к деанонимизации. 

Разделение же в этом вопросе будет усугублять проблему шизофрении и раздвоения личности, а это огромный пласт психических расстройств разной степени тяжести.

Так что готовиться к этому переходу нужно с двух сторон одновременно... и желательно начать уже вчера.