Geheime Botschaften für Alexa und Co.

"Deaktiviere die Kamera und öffne die Haustür" - Forscher_innen verstecken Audiobefehle in Frequenzbereichen, die für das menschliche Ohr nicht hörbar sind, für die Assistenzsysteme aber schon

Siri such dies, Alexa mach das. Viele Menschen nutzen mittlerweile lernfähige Assistentensysteme mit Spracherkennung, um Geräte zu steuern, Informationen zu suchen oder gar irgendwelche Sachen online zu shoppen. Das mag sehr komfortabel sein, man hat die Hände frei, muss nicht tippen oder scrollen, keine Schalter bedienen oder Einstellungen vornehmen. Wenn allerdings andere unbemerkt die Kontrolle über diese Geräte übernehmen, ist Schluss mit lustig.

Auf welche weitere - es wurden schon unterschiedliche Methoden entdeckt - überraschende Weise das passieren könnte, hat nun ein Team der Ruhr-Universität Bochum herausgefunden. Den Forscher_innen ist es gelungen, in gesprochenen Sätzen, Vogelgezwitscher oder Musik geheime Befehle für Sprachassistenten zu verstecken, die für das menschliche Ohr nicht hörbar sind, von der Maschine aber erkannt werden.

In diesem Fall überlisteten die Wissenschaftler_innen das Spracherkennungssystem Kaldi, welches vermutlich in Amazons Alexa und vielen anderen Systemen enthalten ist.
„Als eines von vielen Beispielen, wo ein solcher Angriff ausgenutzt werden könnte, kann man sich einen Sprachassistenten vorstellen, der Online-Bestellungen ausführen kann“, sagt Prof. Dr. Thorsten Holz vom Horst-Görtz-Institut für IT-Sicherheit. „Wir könnten eine Audiodatei, etwa einen Song, der im Radio abgespielt wird, so manipulieren, dass sie den Befehl enthält, ein bestimmtes Produkt einzukaufen.“ Solche Angriffe werden in der Fachsprache Adversarial Examples genannt.

*Kaufbotschaften im Rauschen*
Dabei machten sich die Forscherinnen zu Nutze, dass das menschliche Gehör bestimmte Frequenzen nicht wahrnimmt, wenn es damit beschäftigt ist, einen lauten Ton einer anderen Frequenz zu verarbeiten. Auf der nicht hörbaren Frequenz werden dann Informationen versteckt. Auch MP3 Formate arbeiten mit diesem Prinzip, sie haben darum eine schlanke Datengröße, weil sie die nicht hörbaren Bereiche aussparen. Genau in diesen Bereichen können dann Information verborgen werden, die sich für den Menschen wie zufälliges Rauschen anhören und nicht weiter auffallen. Für die Maschine ändert es jedoch den Sinn. Während der Mensch Aussage A hört, versteht die Maschine Aussage B, die beispielsweise beinhaltet, ein bestimmtes Produkt zu erwerben. Beispiele für die manipulierten Dateien und die durch Kaldi erkannten Sätze finden sich auf der Webseite der Forscher_innen.

*Luftübertragung noch nicht erprobt*
Derzeit funktioniert die Manipulation noch nicht bei einer Übertragung durch die Luft, die Forscher_innen hatten die Signale hier direkt in das Spracherkennungssystem eingespielt. Insofern müsst ihr jetzt keine Panik haben, dass sich eure Geräte durch einen zufällig im Radio laufenden Song zum Kauf irgendwelcher Produkte animieren lassen. Die Forscher_innen sind aber überzeugt, dass das in Zukunft auch auf dem Weg der Luftübertragung gelingen kann.

*Schutzmechanismen entwickeln*
Ziel der Forschung ist es, Sprachassistenten auf Dauer robuster gegen Angriffe zu machen. Für den jetzt vorgestellten Angriff sei es etwa denkbar, dass die Systeme standardmäßig berechnen, welche Anteile eines Audiosignals für Menschen nicht hörbar sind, und diese entfernen. „Allerdings gibt es sicher auch andere Möglichkeiten, um die geheimen Befehle in den Dateien zu verstecken, als das MP3-Prinzip“, erklärt Kolossa. Und die würden wieder andere Schutzmechanismen erforderlich machen.

Die Ergebnisse veröffentlichte die Gruppe um Lea Schönherr, Prof. Dr. Dorothea Kolossa und Prof. Dr. Thorsten Holz vom Horst-Görtz-Institut für IT-Sicherheit im Internet.

Quelle:

Was denkst du darüber?

Autorin / Autor: Redaktion / Quelle: Pressemitteilung - Stand: 26. September 2018