Слабый шум заставил систему распознавания голоса услышать совсем другие слова

Навчання 12 грудня 2023

Исследователи научились создавать из записей речи новые записи, которые имеют едва заметные отличия в виде шума, но интерпретируются системами распознавания речи совершенно иначе. Такой метод можно использовать для атаки на голосовые помощники или же для защиты речи от распознавания компьютерами и смартфонами, говорится в препринте, опубликованном на arXiv.org. Примеры исходных и измененных записей, а также использованный набор данных доступны на сайте исследователей.

Многие современные системы распознавания речи основаны на нейросетях. При достаточно большом и правильно сформированном наборе тренировочных данных точность систем машинного обучения уже не уступает специалистам в какой-либо области — например, в распознавании устной речи или диагностике пневмонии. Но, помимо сложности тренировки, у таких алгоритмов есть еще один серьезный недостаток. Они могут быть уязвимы к состязательным примерам — данным, изменения в которых незаметны человеку, но сильно влияют на системы распознавания образов. К примеру, исследователи научились создавать реалистично выглядящие 3D-печатные модели черепах, которых нейросети принимают за винтовку, или очки с необычным узором для обмана систем распознавания лиц.

Николас Карлини (Nicholas Carlini) и Давид Вагнер (David Wagner) из Калифорнийского университета в Беркли использовали эту особенность для обмана систем распознавания речи, основанных на машинном обучении. Они предложили внедрять в аудиозаписи голоса небольшие изменения, которые полностью меняют содержание записи для систем распознавания. Для этого они добавляли нужную фразу в исходную запись и с помощью функции потерь и градиентного спуска за несколько минут приближали выходную запись к искомой.

Исследователи проверили созданные состязательные примеры на свободной реализации системы распознавания DeepSpeech, созданной специалистами из Mozilla. Тестирование показало, что такой метод имеет стопроцентную точность: во всех случаях DeepSpeech распознавала именно внедренную исследователями, а не исходную фразу. Авторы работы представили несколько примеров.

В прошлом году китайские исследователи предложили другой метод атаки на голосовые помощники. Они научились создавать неслышимые для людей команды, которые искажаются в микрофонах из-за их особенностей и превращаются в звук, который голосовой помощник воспринимает как команды.

Слабый шум заставил систему распознавания голоса услышать совсем другие слова

Курочка в апельсинці і мікрохвильовці

Капустні оладки «Миндрики»

Маннік з карамеллю і горіхами

Закуска з редису і моркви

Піца «антикризова»

Салат «Версаль»