SmirkinDA Apr 25 2017 at 15:55

Демонический голос, управляющий твоим смартфоном

5 min

31K

Parallels corporate blogDevelopment for iOS*Development of mobile applications*Development for Android*Machine learning*

Вот вам идея для эксперимента: в заполненном автобусе громко произнесите: «Привет, Сири! Напиши смс маме: я беременна!». После этого расслабьтесь и наблюдайте за перфомансом. Наверняка поймаете чьи-то испуганные взгляды, когда их айфоны проснутся в сумках/карманах, и владельцы полезут за ними отменять вашу команду. (С)

Но что если бы существовал способ разговаривать со смартфонами не словами, а непонятными человеку звуками? Если гаджеты не запрашивают подтверждений у владельцев, а те не сообразят вовремя и не вмешаются, то даже и не поймут, что кому-то что-то написали.

Похоже, люди и компьютеры принимают за человеческую речь звуки разного характера. Прошлым летом группа исследователей разработала способ создания голосовых команд, которые парсятся компьютером, но при этом для человека звучат как бессмысленный шум. Авторы назвали их «скрытыми голосовыми командами». С их помощью можно управлять Android-смартфонами с активированным Google Assistant. И звучит это как всплески грубого статичного шума.

Чтобы такая атака сработала, источник звука должен находиться на расстоянии не больше 3,5 м от атакуемых смартфонов. При этом вовсе не обязательно находиться рядом с атакуемым — звуковую последовательность можно внедрить в звуковую дорожку популярного YouTube-ролика, или передать по радио или телевидению.

Недавно в новостях сообщили о случае, когда шестилетняя девочка заказала себе через Amazon Echo кукольный домик и килограмм печенья, просто попросив гаджет о них. Самое забавное, что когда об этом рассказали в новостном выпуске по ТВ и прозвучала фраза «I love the little girl, saying ‘Alexa ordered me a dollhouse’», то были отмечены случаи размещения в интернете заказов такими же устройствами, которые услышали сказанное по телевизору.

Касание — главный способ взаимодействия со смартфонами. Поэтому мы блокируем экраны, вводим защиту по паролю или отпечатку пальца. Но голос тоже становится всё более важным способом взаимодействия, наши гаджеты превращаются в постоянно слушающих нас помощников, готовых выполнить наши просьбы. Вставьте в уши новые беспроводные наушники Apple, и Сири становится посредником во взаимодействии со смартфоном, вам даже не нужно доставать его из кармана или сумки.

Чем больше всевозможных датчиков получают наши гаджеты, тем больше появляется способов управления ими. В безопасности есть даже такой термин — «increased attack surface». Ради маркетинговых исследований уже научились воздействовать через микрофоны с помощью ультразвуковых сигналов. С помощью быстро мерцающих световых сигналов можно передавать через камеры сообщения, используемые для наблюдения и установления связи, а также для отключения или изменения функций телефона.

Большинство электронных помощников оснащены защитой от исполнения случайно подслушанных или вредоносных команд. Например, в предложенном в начале статьи эксперименте смартфоны наверняка запросят подтверждение на отправку SMS. Сири прочитает текст сообщения вслух, прежде чем отправить его. Но целеустремлённый злоумышленник может и обойти защиту подтверждением. Достаточно успеть сказать «да» до того, как владелец устройства сообразит, что происходит, и скажет «нет».

Скрытые голосовые команды могут нанести ещё больше вреда, чем просто отправка поддельных или глупых текстовых сообщений. Например, если владелец iPhone привязал свою Сири к аккаунту на сервисе Venmo, то он может пересылать деньги посредством голосовых инструкций. Или голосовая команда может заставить устройство посетить сайт, с которого автоматически скачается зловредное приложение.

Исследователи разработали два разных набора скрытых команд, предназначенных для двух типов жертв. Один набор нацелен на Google Assistant: команды вводят его в заблуждение, потому что Google не раскрывает подробности распознавания речи. Сначала исследователи сгенерировали с помощью речевого синтезатора голосовые команды, а затем с помощью специальных алгоритмов сделали их малоразборчивыми для человеческого уха, но всё ещё понятными для цифровых помощников. После нескольких итераций команды стали звучать так, что люди вообще их не понимали, а гаджеты распознавали их в вполне уверенно.

Получившиеся скрытые команды не звучат бредово. Скорее, они похожи на речь демона, а не человека.

Если вы знаете, что сейчас услышите замаскированную голосовую команду, то, вероятно, поднапрягшись, сможете её понять. Чтобы избежать этого прайминг-эффекта, разработчики через Mechanical Turk, сервис Amazon для найма работников в небольшие проекты, привлекли испытуемых, которым давали прослушивать исходные и искажённые команды, а те записывали, что, как им кажется, они слышали.

Лучше всего разница между машиной и человеком была заметна на простой команде «Okay, Google!». Когда её произносили нормально, люди и гаджеты понимали её примерно в 90% случаев. Но когда команда была обработана, люди понимали её в 20% случаев, а Google Assistant — в 95%. С командой «Turn on airplane mode» всё было не так трагично: люди понимали её в 24-69% случаев, а устройства — 45-75%.

Когда мы с коллегами испытали сделанные исследователями записи на своих Android-смартфонах и айфонах с запущенным приложением Google, то добились некоторого успеха. «Okay, Google» срабатывала чаще других скрытых команд, а в ответ на «What is my current location» мы получали всё, что угодно, от «rate my current location» до «Frank Ocean». Возможно, отчасти это следствие того, что мы прокручивали YouTube-запись с ноутбука, что внесло определённые искажения.

Также разработчики создали набор команд для атаки на open-source приложение для распознавания речи, чей код можно было заранее изучить, чтобы эффективнее замаскировать голосовые команды, но при этом оставить их понятными для алгоритма. Получившиеся записи звучат не так демонически. Некоторые вообще не разобрать, даже если знаешь, что сейчас услышишь. Ни один из нанятых испытуемых не смог распознать даже половину слов из этого набора.

А если вы не знаете, что слушаете голосовые команды, то даже и не поймёте, что происходит. Когда разработчики вставили скрытую фразу между двумя обычными фразами, сказанными человеком, и попросили испытуемых записать всё, что они услышали, то лишь четверть из них вообще попыталась транскрибировать среднюю фразу.

Затем разработчики занялись созданием способов защиты от подобных голосовых атак. Простого уведомления недостаточно, потому что его можно проигнорировать или заглушить другими звуками. Подтверждение чуть надёжнее, но его можно преодолеть с помощью другой скрытой команды. А функция реагирования только на те команды, что произнесены владельцем, зачастую оказывается неэффективна, да к тому же требует «обучения» гаджета.

Разработчики пришли к мнению, что лучше всего применять решения на базе машинного обучения, анализирующие речь и пытающиеся определить, что с ними говорит именно человек, либо прогоняющие каждую команду через процесс постепенного ухудшения качества поступающих инструкций. В последнем случае уже обработанные «скрытые» команды станут слишком зашумлёнными для распознавания, но человеческая речь всё ещё будет оставаться понятной.

Но если фильтры даже слегка затруднят понимание гаджетами людей, то производители вряд ли будут их внедрять. У тех пользователей, чья речь часто непонятна для цифровых помощников, ухудшение качества распознавания может привести к нежеланию вообще покупать этот гаджет.
Прежде чем допускать цифровых помощников ко всё более важным операциям — например, банковским переводам, или даже публикации фотоснимков в сети — их нужно сделать более искусными в отражении атак. Иначе сатанинский голос из YouTube-видео сможет нанести гораздо больше вреда, чем громкая команда в переполненном автобусе.

Tags:

Hubs:

Демонический голос, управляющий твоим смартфоном

Articles

Information