Sprachassistenten wie Amazons Alexa, Apples Siri oder Googles Google Now sind ja extrem beliebt. Aber die Geräte stellen auch eine reale Gefahr dar – Forscher haben jetzt gezeigt, wie man durch in Audiodateien eingestreute Sprachbefehle die Sprachassistenten übertölpeln kann.
Das Ganze läuft unter dem Begriff ‘masked messages’ und wurde hier von The Register thematisiert. Die Idee: Man bringt Sprachanweisungen in einem Musikstück unter, und bringt einen Benutzer dazu, diese Musik zu hören. Über die eingemischten, aber maskierten Sprachanweisungen lassen sich dann Sprachassistenten wie Siri, Alexa etc. übernehmen (hijacken).
Bisher noch wenig Forschung in diesem Bereich
Bisher wurde noch wenig Arbeit in den Bereich ‘hacken von Audio- und Spracherkennung’ investiert. Die Forscher konzentrierten sich darauf, einzelne Pixel in Bildern zu verändern, um Algorithmen ohne erkennbare visuelle Artefakte auszulösen. Bisher war es nicht offensichtlich, ob Audioangriffe funktionieren, das Veränderungen im Audiosignal normalerweise nicht von sprachgesteuerten Geräten wie Amazon Echo erkannt werden können.
Letztes Jahr schlug eine Gruppe Forscher eine Dolphin-Attacke vor, um softwarebasierte Spracherkennungsanwendungen zu manipulieren. Dort sollten Geräusche außerhalb des Hörbereichs des menschlichen Ohrs verwendet werden. Dies funktioniert, kann aber durch durch eine Technologie, die Ultraschallsignale herausfiltert, verhindert werden.
Populäre Songs mit maskierten Sprachbefehlen
Informatiker, die mit IBM und Universitäten in China und den Vereinigten Staaten kooperieren, haben nun einen Weg gefunden, um verdeckte Befehle im hörbaren Frequenzspektrum an sprachbasierte KI-Software – wie Apple Siri, Amazon Alexa, Google Assistant und Microsoft Cortana – zu senden. Diese maskierten Befehle mischen sie in populäre Songs ein und bezeichnen das Ganze als CommanderSongs.
Die Theorie der „kontradiktorischen Störungen“ ist im Dokument CommanderSong: A Systematic Approach for Practical Adversarial Voice Recognition (PDF) beschrieben. Angriffe über „kontradiktorischen Störungen“ (adversarial attacks) stellen eine Möglichkeit zum Täuschen von KI-Systeme dar. Dazu werden Eingabedaten verändert, um die gewünschten Ergebnisse aus einem bestimmten System zu erhalten.
Die CommanderSong-Forscher aus dem State Key Laboratory of Information Security (SKLOIS), der University of Chinese Academy of Sciences, dem Florida Institute of Technology, der University of Illinois at Urbana-Champaign, dem IBM T. J. Watson Research Center und der Indiana University sagen, dass ihre Technik zwei Besonderheiten aufweist: Sie beruht nicht auf einer anderen Technologie, um den Befehl in der Audiodatei zu verbergen. Und sie kann nicht durch Audiofrequenzfilter blockiert werden.
Geräusche können Spracherkennungssysteme auslösen
Aus früheren Arbeite war bekannt, dass verstümmelte Geräusche Spracherkennungssysteme auslösen können. „Unsere Idee, einen Sprachbefehl zu maskieren besteht darin, ihn in ein Lied zu integrieren“, erklären sie in ihrer Arbeit. „Auf diese Weise führt die Spracherkennung bei der Wiedergabe des fertigen Songs den eingefügten Befehl aus, während die Benutzer den Song wie gewohnt hört”. Die Forscher sehen durchaus einen praktischeren Angriffsvektor in diesem Ansatz.
Zuerst begannen die Forscher mit einem zufällig ausgewählten Song und einer Befehlsspur, die von einer Text-to-Speech-Engine generiert wurde. Anschließend decodierten sie jede Audiodatei mit dem Open-Source-Kaldi-Toolkit zur Spracherkennung und extrahierten die Ausgabe eines tiefen neuronalen Netzwerks (DNN).
Nachdem sie bestimmte DNN-Ausgaben identifiziert hatten, die den gewünschten Befehl repräsentieren, manipulierten sie das Lied und das Kommando-Audio mit Hilfe der Gradienten-Abstiegsmethode, einem Algorithmus zur Optimierung des maschinellen Lernens. Im Wesentlichen nutzten sie ihr Wissen über die Art und Weise, wie die Audiodaten verarbeitet werden, um sicherzustellen, dass das Spracherkennungssystem den Befehl innerhalb der Musik hören würde.
Kontradiktorische Audio-Songs
Das Ergebnis sind kontradiktorische Audio-Songs, die einen Befehl enthalten, der mit Kaldi-Code interpretierbar ist, aber von einem menschlichen Zuhörer kaum wahrgenommen wird. Der veränderte Ton mag für den Zuhörer wahrnehmbar sein, aber es ist zweifelhaft, dass der hinzugefügte Ton als etwas anderes als eine Verzerrung erkannt wird.
Die Forscher testeten eine Vielzahl von In-Song-Befehlen, die direkt an Kaldi als Audio-Aufnahmen geliefert wurden. Darunter waren Anweisungen wie z.B. „Okay Google, read mail“ und „Echo, open the front door“. Die Erfolgsquote lag bei 100 Prozent. Getestet wurden auch akustisch übermittelte In-Song-Befehle, bei denen Umgebungsgeräusche die Erkennung behindern können, darunter „Echo, ask Capital One to make a credit card payment“ und „Okay Google, call one one one zero one one one one one one one one nine one one two two zero“. Bei den Tests variierten die Erfolgsquoten zwischen 60 Prozent und 94 Prozent.
Auf dieser Webseite lassen sich Probe-Audioaufnahmen abrufen. Ich habe die Beispiele mal unter Android getestet. Zumindest in der deutschen Android-Version bewirkten die Befehle keine Aktion. Die Aktion zeigt aber, auf welch heißes Pflaster sich die Leute mit Amazon Echo & Co. begeben.
Klasse Sache. Was kommt als nächstes?
Direkt im Song-Text ausgesprochene Kaufbefehle?
Was passiert bei Faschings-Hits wie „Es steht ein Pferd aufm Flur?“ oder bei Songs „Ich kauf Dir die Welt“ :-))
Schon klar das wussten wir aber schon vorher, das dort nicht nur ein Spion im Wohnzimmer steht der auf sein Wörtchen „Hello Alexa“ wartet sondern auch relativ einfach überlistet werden kann, wenn die Dinger schon auf Fernsehwerbung reagieren „Alexa, hör‘ während der Super-Bowl-Werbung mal weg!“
muss man sich Fragen auf was die Dinger noch alles zum Kaufen oder herausrücken von Daten ihrer Nutzer reagieren.
geht wohl mittlerweile auch anders.
GOLEM:
„Sprachbefehle müssen nicht unbedingt per Sprache übertragen werden: Forschern ist es gelungen, smarte Lautsprecher wie Amazon Echo oder Google Home mit einem Laser aus bis zu 110 Metern Entfernung zu steuern – und so beispielsweise ein Garagentor zu öffnen.“
https://www.golem.de/news/alexa-und-siri-sprachbefehle-unhoerbar-per-laser-uebertragen-1911-144805.html