Исследователь из Стэнфордского университета Михал Косински – противоречивая, но безусловно яркая фигура в области науки, которую можно приблизительно обозначить как "компьютерная психология" или "автоматический психологический профайлинг". Радио Свобода пишет, что в ряде своих исследований Косински продемонстрировал, например, что, анализируя данные пользователей интернета, можно воссоздать их очень подробный психологический профиль или что компьютер способен с высокой точностью определить по внешности сексуальную ориентацию. В январе 2021 года в журнале Scientific Reports (выходит в издательском доме Nature) вышла новая работа Косински, на этот раз он утверждает, что по фотографии можно выяснить, каких политических взглядов придерживается человек.
Впервые о молодом исследователе польского происхождения широко заговорили в 2016 году, когда он стал одним из героев расследования швейцарского журнала Das Magazin о деятельности компании Cambridge Analytica. Эта фирма создала технологию, позволяющую в частности автоматически анализировать психологические особенности пользователей фейсбука на основе их профилей. Cambridge Analytica была нанята избирательным штабом Дональда Трампа, и ее инструменты использовались для таргетирования рекламы и политических месседжей. Неизвестно, насколько сильно услуги британской компании помогли победе Трампа, но успех Трампа точно помог Cambridge Analytica прославиться настолько, что ее технологией заинтересовался Герман Греф. Швейцарские журналисты назвали Михала Косински настоящим автором технологии Cambridge Analytica, которая фактически скопировала алгоритм из его статьи. Сам Косински всегда настаивал, что для своей диссертации всего лишь написал несложную программу, аналогичную тем, что уже и так были запатентованы, и не хотел этим никого вдохновлять. Впрочем, в 2017 году молодой ученый удостоился приглашения в Москву, где рассказывал о своей работе группе российских чиновников, в которую входили Дмитрий Медведев и Сергей Лавров.
Сага с Cambridge Analytica закончилась крупнейшим скандалом в истории Facebook: основателю компании Марку Цукербергу в 2018 году пришлось давать объяснения в Сенате США о том, как данные почти 90 миллионов американских пользователей социальной сети без их ведома были использованы для психологического профайлинга и таргетирования рекламы. Цукерберг пообещал улучшить безопасность данных, а Cambridge Analytica в том же году была закрыта, во всяком случае формально. К этому моменту компания, по данным СМИ, успела поучаствовать в выборах в еще нескольких странах – Аргентине, Кении, Нигерии и Чехии.
Если скандал с Cambridge Analytica имел к Михалу Косински лишь косвенное отношение, то в 2017 году он оказался в центре скандала уже сам. Косински опубликовал работу о том, что самообучающийся компьютерный алгоритм, нейросеть, способен с высокой точностью определять по фотографии сексуальную ориентацию человека. Эту работу критиковали как в ЛГБТ-сообществе за биологический детерминизм, так и исследователи в области искусственного интеллекта, которые обратили внимание, что Косински не разделяет в понятии "внешности" врожденные черты и такие факторы, как прическа, косметика, ракурс снимка. Ученый в ответ подчеркивал, что не утверждает в своей работе, что внешность гомосексуалов биологически отличается от внешности гетеросексуалов, но в то же время намекал, что для этого могут быть предпосылки. Основная же линия защиты Косински заключалась в том, что цель его исследования – продемонстрировать всему миру необычайную силу даже простых алгоритмов искусственного интеллекта и предупредить о его опасности.
Этот же тезис Косински несколько раз повторил в интервью Радио Свобода, говоря о своей новой работе. На этот раз исследователь использовал около миллиона цифровых снимков добровольцев, которые заявили о своих политических предпочтениях, выбрав между вариантами "либерал" и "консерватор". Эти данные Косински использовал для тренировки стандартного алгоритма распознавания лиц – оказалось, что получившаяся нейросеть способна верно определять по фотографии политические взгляды более чем в 70 процентов случаев. У человека это получается лишь в 55 случаях из 100.
Мы поговорили с Михалом Косински о том, что именно в наших лицах может указывать на взгляды, почему их не способен заметить во внешности человек, об отношении Косински к френологии и Ломброзо, а также о том, боится ли он "цифрового ГУЛАГа".
Нейросети обучаются и сами находят параметры, которые оказывают большее влияние
– Расскажите вкратце о вашей новой работе. Правильно ли я понимаю, что алгоритм, который вы использовали, оказался способным верно определять политические предпочтения пользователя – консервативные или либеральные – на основе его цифрового портрета с точностью в 72 процента, значительно точнее, чем это может сделать человек?
– Да, и это на первый взгляд совершенно контринтуитивно. Но если подумать – так ли уж странно, что в вашей фотографии может содержаться и эта информация? Понятно, что в значительной степени политические предпочтения определяются возрастом, гендером, этнической принадлежностью. Интересно, однако, что даже если контролировать эти переменные, то есть применять алгоритм для однородной по этим параметрам группы, его предсказательная сила все равно остается достаточно высокой – выше, чем то, на что способен человек. Есть другая группа факторов, которые мы отдельно оценивали, – это ракурс, в котором сделано фото, направление взгляда человека, наличие бороды или мэйкапа, очков. Оказалось, что каждый из них вносит лишь незначительный вклад. То есть если попросить алгоритм учитывать только эти переменные, его предсказательная сила заметно снизится.
– А какие вообще параметры фотографии, лица учитывает алгоритм?
– А это неизвестно, современные алгоритмы распознавания образов, в частности лиц, учитывают огромное количество параметров, которые мы не воспринимаем сознательно, при этом такие алгоритмы, нейросети, самообучаются и в процессе обучения сами находят те параметры, которые оказывают большее влияние на результат. Это такой черный ящик. Если алгоритм заставить учитывать только заранее заданные параметры, сделать этакий "прозрачный ящик", он будет работать намного хуже.
– Есть, грубо говоря, три категории параметров цифрового портрета, которые можно учитывать: во-первых, это особенности фотографии, то есть ракурс, фон и так далее. Во-вторых, это то, что мы в своем лице можем легко изменить – растительность на лице, прическа, косметика, очки. И в-третьих, это некие врожденные или во всяком случае мало меняющиеся со временем черты. Какая из этих групп определяет для алгоритма, консерватор человек или либерал?
– В ходе эксперимента мы отчасти унифицировали снимки – удалили фон, обрезали фотографии примерно посередине лба, чтобы волосы и наличие головного убора не влияли. То, что получилось, "скармливали" одному из стандартных алгоритмов распознавания лиц, который доступен в открытом доступе. Эта нейросеть изначально сконструирована так, что в процессе самообучения она тренируется не учитывать "непостоянные" особенности внешности, потому что ее задача, грубо говоря, обнаружить Брюса Уиллиса на снимках, где он запечатлен с разных ракурсов, в разном образе, в разном возрасте.
– Почему вы использовали готовый алгоритм, а не написали свой?
– У нас не было такой задачи, смысл нашей статьи – рассказать, что мы живем во время, когда такие технологии возможны, а мы считаем их очень опасными. И мы не хотели даже косвенно помочь в развитии таких технологий. Другая причина в том, чтобы наши результаты должны быть воспроизводимыми.
– Ваше исследование утверждает, что у либералов и консерваторов в самом деле отличаются лица? Не стиль прически, не наличие или отсутствие усов, а именно сами лица?
– Ну все-таки я не готов это уверенно утверждать на основе нынешнего исследования. Если учитывать прическу и усы, то точно отличаются, а если говорить только о форме лица, размере глаз, носа и так далее, то не знаю, нужно проводить отдельный эксперимент. Я, кстати, сейчас работаю как раз примерно над чем-то в этом духе.
– И все-таки вы сами сказали, что алгоритм, который основывался бы только на фиксированном наборе "непостоянных" особенностей лица, имел бы более низкую предсказательную силу, получается, что и какие-то постоянные черты играют роль. Пусть это не предмет нынешнего исследования, но давайте предположим, что какие-то особенности самого лица коррелируют с политической ориентацией. Как это может объясняться?
– О, это очень интересный вопрос. Смотрите, есть три общих группы механизмов. Первый: ваше лицо влияет на ваши взгляды. Например, жизнь более привлекательных людей как правило легче. Они больше зарабатывают, быстрее двигаются по карьерной лестнице. Про это опубликовано много исследований. Все эти преимущества, которые получают люди с красивыми лицами, постепенно изменяют их взгляды. Если тебе все в жизни дается легко, насколько важны механизмы поддержки и помощи нуждающимся? Это влияние внешности на взгляды может быть не очень значительно, но достаточно велико, чтобы нейросеть его заметила. Это только один из примеров. Если лицо человека воспринимается как доминирующее, будут ли его взгляды отличаться от людей с лицами, которые кажутся открытыми и располагающими? Вторая группа механизмов связана с тем, что наша жизнь влияет на наши лица. Диета, хобби, спорт, загар, мода – в частности, все те же растительность на лице и мэйкап. Опять же я подчеркну, что мы говорим о статистике, а не об отдельных людях. Консерватор с чуть-чуть большей вероятностью носит усы, чем демократ (я не уверен, что это так, это просто пример), но в статистике, при обучении алгоритма, это становится одним из огромного числа значимых факторов. Третья группа механизмов – факторы, которые влияют одновременно и на лицо, и на взгляды. Например, гормоны. Об этом тоже есть научные работы. Гормоны связаны с поведением по определению, но они рано или поздно отражаются и на нашей внешности, например скорости, с которой человек седеет. На форму челюсти влияет уровень тестостерона. Другой фактор – гены. Очевидно, что наша внешность связана с генами, но есть и исследования, что мы до некоторой степени наследуем наши политические предпочтения.
Я верю, что технологии могут принести много пользы, лишь подчеркиваю, что у них есть обратная сторона
– И все эти механизмы сложно взаимосвязаны, мы их влияние заметить не можем, а вот обученная на большой выборке нейронная сеть видит какие-то паттерны?
– Да, это возможно. Грубо говоря, тот факт, носите ли вы бороду или нет, не говорит автоматически о том, либерал вы или консерватор. Но он капельку увеличивает вероятность того, что ваши политические предпочтения попадают в такую-то категорию. Когда вы объединяете этот незначительный фактор с сотней, тысячей других, вы получаете достаточно высокую предсказательную точность.
– Предсказание особенностей личности по внешности – опасная тема, сразу вспоминаются френология, работы Ломброзо, которые сейчас считаются лженаучными и сыгравшими в свое время опасную роль. А из вашего исследования получается, что в них все-таки был какой-то смысл?
– К сожалению. Я хочу подчеркнуть, что большая часть этих теорий прошлого мне не просто кажутся сомнительными, они вызывают во мне отвращение. Теперь мы понимаем, они в сущности не были научными, они не были основаны на научных методах. Это были фантазии, гипотезы, которые не подкреплялись ни данными, ни даже нормальными наблюдениями. Но сейчас я хочу предупредить общество, исследователей, политиков, что в чем-то похожие взаимосвязи обнаруживаются с помощью технологий искусственного интеллекта. Технология, которая предоставляет нам много удобств, например, возможность разблокировать своим лицом свой телефон, одновременно открывает возможности для своего рода автоматической физиогномики. Физиогномика – не моя область деятельности, более того, она мне не особенно интересна, я просто говорю о том, что современное развитие технологий возвращает риски, с которыми мы сталкивались в конце 19-го – начале 20-го века. Люди очень часто путают меня, человека, который лишь несет предостережение, с создателем опасной технологии. В то же время я бы не хотел, чтобы меня воспринимали как алармиста. Я верю, что эти технологии могут принести много пользы, я лишь подчеркиваю, что у них есть и обратная сторона.
– Если вы "скормите" тому же алгоритму фотографии, но в сочетании не с данными о политических взглядах, а с данными о судимостях, найдет ли нейросеть и там какой-то паттерн, как вы думаете?
– Давайте, кстати, не забывать, что в мире есть немало мест, где определенные политические взгляды уже сами по себе считаются преступлением. Мое предыдущее исследование касалось возможности использовать алгоритмы распознавания лиц для определения сексуальной ориентации, так вот сексуальная ориентация тоже кое-где считается преступлением. Отвечая на ваш вопрос: те три группы механизмов, о которых я только что сказал, касаются не только политических взглядов, но и других психологических особенностей. В случае определения преступников, некоторые из этих механизмов совершенно очевидны, например, характерные криминальные татуировки на лицах… Словом, я думаю, что такой эксперимент тоже был бы успешным, но я не хочу его проводить. В 2016 году уже была опубликована подобная работа, и она подверглась большой критике, хотя у ее авторов, как и у меня, задача была лишь в том, чтобы предупредить о рисках, о том, что правительства разных стран уже пользуются такими методами, потому что они эффективны и в них нет ничего сложного.
– Итак, задача вашей нынешней работы тоже не в том, чтобы показать, смотрите, на что способны технологии, а в том, чтобы предупредить, что ими, возможно, уже пользуются?
– "Возможно" – лишнее слово. Все это уже было запатентовано более 10 лет назад. У меня нет доступа к запатентованному алгоритму, я не знаю, насколько он, созданный в то время, был хорош, но я уверен, что и обладатель патента за прошедшее время значительно усовершенствовал свою технологию. Это не предостережение о чем-то потенциально плохом, это предостережение о наступившей реальности. Многие люди отмахиваются, это, мол, все френология, в нее верили сто лет назад, сейчас все знают, что это лженаука. Но постойте, то, что век назад кучка псевдоученых выдвигала похожие гипотезы, не значит, что на них не стоит обращать внимания.
Нам достаточно беглого взгляда на фрагмента лица человека, чтобы определить его пол
– Когда в декабре было опубликовано расследование о покушении на Алексея Навального, в российских социальных сетях много обсуждали фотографии его предполагаемых отравителей. Люди писали – "сразу же видно, что это лица убийц". Я, честно говоря, ничего такого в тех лицах не увидел, но ведь и человеческий мозг бессознательно подмечает какие-то особенности внешности, на основании которых мы наделяем их обладателя какими-то чертами?
– Разумеется, самые простые примеры – это наша способность определять возраст или пол. Нам это кажется естественной способностью, но вдумайтесь: нам достаточно беглого взгляда на какой-то фрагмента лица человека, чтобы с высокой точностью определить его пол. Мы замечательно определяем по лицу эмоции человека, даже в тех случаях, когда он пытается их скрыть.
– Но вот определять по лицу политические взгляды человек умеет не очень хорошо, это и из вашей работы следует, и из моего частного опыта. Да и криминальные наклонности, видимо, тоже. Почему?
– Это очень просто: человеческая нейросеть для этого плохо натренирована. Если бы вы с самого детства видели много людей, про которых наверняка бы знали, что вот этот – преступник, а вот этот – нет или что этот – либерал, а тот – консерватор, то, весьма вероятно, вы бы научились мгновенно делать такой вывод по лицу и даже лучше, чем компьютерный алгоритм. Кстати, когда я занимался исследованием о возможности определения сексуальной ориентации по лицу, я где-то читал, не помню точно где, что гомосексуалы лучше способны определять ориентацию других людей – просто потому, что им приходится больше тренировать в себе эту способность.
– Вы говорите, что хотите только предупредить об опасности, но уже был случай, когда ваше академическое исследование о возможности психологического профайлинга человека на основе его цифрового следа вдохновило компанию Cambridge Analytica на создание скандальной технологии, которая применялась четыре года назад в ходе президентских выборов в США. Не боитесь, что и в этот раз нечто подобное произойдет, что вдохновите кого-нибудь?
– Я хотел бы сразу прояснить один момент. Насчет Cambridge Analytica – это обвинение, которое я часто слышу, меня это не обижает, но технология, которую использовали в Cambridge Analyticа, была запатентована еще в 2012 году Фейсбуком. Примерно через год я частично воссоздал их алгоритм, просто чтобы показать, как это может работать. И мне сначала говорили за это спасибо, а потом те же люди стали говорить, что это я все и придумал.
– Погодите, но в Кембридже у вас был коллега Александр Коган, который от вас узнал об этой технологии, а потом передал ее Cambridge Analytica…
– Да, Коган был членом совета, где я защищал свою диссертацию как раз об этом, и он ее очевидно читал. Но все воспринимают эту историю так, будто Косински создал опасное оружие и вложил его в руки Cambridge Analytica. А на самом деле я написал небольшую работу об опасности применения "калашникова", и теперь меня обвиняют в том, что повстанцы пользуются "калашниковым" из-за меня.
– И все-таки не боитесь, что теперь кто-то прочитает вашу статью, сделает технологию, раз уж это так просто, и продаст плохим парням?
– Плохие парни используют эту технологию уже лет десять, если судить по патентам. И про это никто не говорит! А когда кто-то про это заговаривает, люди пытаются от него отмахнуться. Защитники прав человека, ЛГБТ-активисты, те, для кого важна приватность, свобода, все те, с кем я искренне соглашаюсь и с кем, по идее, должен быть в одной команде, заявляют: то, что говорит этот Косински, это глупо и вообще невозможно. Я не могу полностью исключать, что мои выводы ошибочны – они основаны на выборке всего лишь из миллиона фотографий. Да, я могу ошибаться, хотя вероятность этого и мала, но разве и это повод говорить, что все это чепуха, не обращать на проблему внимания? От того, что вы отмахиваетесь от проблемы, она не исчезнет.
Осуществлять контроль должен прозрачный орган, а не руководство частной соцсети
– Ваше имя так или иначе оказалось связанным со скандалом с Cambridge Analytica – а он оказался довольно громким, Марку Цукербергу пришлось давать показания в Сенате, акции Facebook сильно подешевели. Что вы чувствовали, когда эта история развивалась?
– Меня все это несколько раздражало. Цукерберг прекрасно знал обо всех рисках, они сами запатентовали технологию, более того, я точно знаю, что он читал мою статью и лично обсуждал ее на больших собраниях в компании. А на слушаниях он заявил, что не знал, что такая технология, как была создана в Cambridge Analytica, вообще возможна. Он попытался свалить ответственность на меня, хотя я-то как раз пытался всех предупредить, что эта технология есть у Цукерберга. А он потом еще и заблокировал мой аккаунт на фейсбуке. Когда я собирался публиковать свою статью, Facebook попытался надавить на журнал, чтобы статью не печатали.
– Вы явно не фанат Facebook. А ведь они предлагали вам работу.
– Да и сейчас предлагают, в последний раз – буквально на днях. Я не хейтер Facebook, был бы рад получить свой аккаунт назад!
– Кстати, что вы думаете о бане Дональда Трампа в нескольких социальных сетях после событий 6 января в Капитолии? С одной стороны, его посты очевидно вдохновили людей, а их действия в итоге привели к человеческим жертвам. С другой стороны, когда социальные сети, де-факто крупнейшие современные медиа, выступают арбитрами доступа к информации исходя из не совсем прозрачных соображений общего блага, нет ли в этом опасности?
– Да, это очень интересный вопрос. Я не политолог, не эксперт в этой области, но как гражданина меня эта ситуация смущает. Я совершенно не поддерживаю слова и действия Дональда Трампа, но он был демократически избранным главой государства. Поведение президента должно быть под контролем, он обязан подчиняться законам, но осуществлять этот контроль должен прозрачный, созданный по демократическим принципам орган, а не руководство частной социальной сети. Вам может не нравиться Трамп, но он выиграл выборы, и теперь частные компании отрезают его от каналов коммуникации – это ненормальная ситуация. Многие люди очень рады, что социальные сети наконец-то забанили Трампа, но они совершенно забывают, что теперь у всех политиков будет еще больший соблазн взять под контроль уже сам Facebook – ведь они будут видеть в нем угрозу для себя. И не только в виде возможного бана. Facebook и другие соцсети обладают крайне подробным досье на каждого пользователя – сексуальные связи, переписки, неоднозначные фотографии, и все это находится в частных руках.
Мы лишились приватности, давайте обсудим законы, чтобы минимизировать риски
– Вы регулярно предостерегаете об опасностях, связанных с тем, насколько большую власть над данными и информационной повесткой приобретают социальные сети. Но такую же власть над данными хотят получить и государства. В России вкладывается очень много ресурсов в то, чтобы собирать и структурировать максимально полный объем информации о каждом гражданине – в том числе, кстати, и с помощью систем распознавания лиц. Этим же занимается Китай и, наверняка, многие другие. Коммерческие соцсети будут использовать такие данные главным образом для заработка, а государства – для контроля, манипуляций и, возможно, репрессий, когда-нибудь – для создания "цифрового Гулага". Разве это не более опасный тренд?
– Конечно, это опасный тренд. С одной стороны, развитие баз данных, технологий искусственного интеллекта и больших данных даст нам кучу преимуществ – удобные сервисы, более эффективную и быстрее растущую экономику и так далее. Эти технологии настолько хороши для всех, для государства, для граждан, для бизнеса, что наивно надеяться, что они не будут использоваться, что их можно запретить. С другой стороны – разумеется, в этом есть и большой риск. И все-таки я считаю, что во всяком случае на нынешнем этапе коммерческие компании угрожают нам сильнее. Facebook знает о вас намного больше, чем государство. Он ведь собирает информацию не только из всех своих сервисов, включая WhatsApp, но и покупает данные традиционного формата на рынке – финансовую информацию, все, до чего могут дотянуться. И с помощью алгоритмов, вроде тех, которые мы обсудили, они способны выудить из этих данных такую информацию о вас, которой вы и сами про себя не знаете. Например, возможно, вашу ожидаемую продолжительность жизни, риск развития зависимостей и так далее. И государству даже не нужно заниматься тем же самым параллельно, при желании государство может затребовать эту информацию у социальной сети – судебный ордер, и пожалуйста. Я предпочитаю ситуацию, когда государство само собирает мои данные – это более прозрачная процедура, потому что мне обязаны сообщить, что и зачем собирают, и весь процесс хоть как-то контролируется. Конечно, преимущество Facebook по сравнению с условным правительством КНР в том, что социальная сеть подчиняется американским законам, но если сравнивать Facebook с правительством США, то пусть уж лучше мои данные собирает правительство США. А собирать все равно будут.
– Война за приватность, видимо, проиграна, так зачем это обсуждать?
– Это как с пожарами: от пожаров невозможно полностью избавиться, но это не значит, что не нужно устанавливать пожарную сигнализацию, пожарные щиты и стараться минимизировать ущерб. Да, мы лишились приватности, мотивированная сторона, неважно, государство или коммерческая компания, при желании сможет узнать о вас практически все, так давайте обсудим, как организовать общество, какие нужны законы, чтобы минимизировать риски в этом постприватном мире. Это невозможно остановить, но возможно регулировать.