Новый метод подслушивания за клавиатурным набором

На прошлой неделе исследователи из трёх британских университетов опубликовали работу, в которой предложили обновлённую методику «подслушивания за клавиатурами» — распознавания набранных символов по звуку нажатия на клавиши. Авторы статьи ссылаются на успешные эксперименты с такими акустическими кейлоггерами, проведённые в 50-х годах прошлого века, и другие подобные работы. Достижением нового исследования стала чрезвычайно высокая точность определения нажатых клавиш, а также автоматизированный способ анализа с помощью нейросетей.

Интересным техническим моментом статьи является тот факт, что нейросети тренировали на анализ изображений. Так как работа исследует звук нажатий на клавиши, это довольно необычно. Оказалось, что такой подход обеспечивает более высокую точность распознавания. Изображения представляли собой модифицированную спектрограмму звуковых сэмплов, как показано на иллюстрации выше. Во всех экспериментах текст и цифры (без знаков препинания и спецсимволов) набирались на клавиатуре ноутбука Apple Macbook Pro 16 2021 года. Исследовались два сценария «подслушивания» — прямая запись звука на расположенный рядом с ноутбуком смартфон и удалённое прослушивание нажатий через телеконференц-сервис Zoom.

Авторы работы ставят себе в заслугу использование достаточно современного ноутбука, так как в теории распознавание нажатий на таком устройстве сложнее, чем на настольной клавиатуре. Звук тише, ход клавиш небольшой, что несколько ухудшает качество собираемых данных. Отдельную сложность представляла запись с помощью Zoom: в этом сервисе нажатия на клавиши принудительно заглушаются. Исследователи слегка упростили себе работу, настроив клиент конференц-связи на «минимальное глушение» клавиатурного набора, но полностью эту функцию отключить нельзя. Результаты следующие: при непосредственной записи звука на смартфон рядом с ноутбуком точность определения составила 95%. Через Zoom правильная последовательность набранных символов была определена в 93% случаев.

Имеет смысл сравнить эти результаты с предыдущими работами по этой богато изученной теме. Авторы ссылаются на две работы: 2017 и 2021 годов. В более ранней работе исследовалось подслушивание через Skype, точность составила 91,7%. В работе 2021 года нажатия на клавиши идентифицировались корректно в 91,2% случаев. Это свидетельствует об определённом прогрессе.

Большой раздел исследования авторы посвятили методам защиты от подобного прослушивания. Сломать аккуратно построенную схему распознавания действительно легко. Во-первых, нейросеть была натренирована на конкретного пользователя, набирающего в привычном ритме текст на конкретной клавиатуре. Даже простое изменение скорости печати значительно снижает точность определения набранного текста. Очевидно, что главной целью подобной технологии является перехват паролей. Сложные пароли, в которых используются спецсимволы или даже заглавные и строчные буквы, гораздо труднее распознавать — одновременное нажатие двух клавиш (например, Shift + символ) вообще не исследовалось. Хотя и здесь авторы отмечают возможности улучшения техники распознавания: все ошибочно определённые символы находились в 1–2 клавишах от той, что реально была нажата. Это даёт шанс на разработку системы коррекции ошибок.

Наконец, можно усложнить жизнь прослушивающим, добавив шума в запись, например путём включения музыки. Или просто говорить во время набора пароля. В новом свете предстаёт двухфакторная авторизация, в принципе снижающая опасность утечки пароля. Напрашивается и более простой вывод: не стоит набирать пароли во время конференц-звонка.

Материалы: Блог компании «Лаборатория Касперского»