Vom guten Ton – Wie Sprachassistenten die Gesellschaft verändern könnten

Wie sich das mit der Höflichkeit entwickeln wird, ist noch nicht ganz ausgemacht. Die einen vermuten, dass wir uns die Welt künftig nur noch im Befehlston erobern. „Alexa, bestell mir Pizza Funghi!“, „Google, weck mich morgen um sieben!“ – noch verstehen die Sprachroboter, die uns zunehmend umgeben, klare Ansagen am besten. Und wenn man nicht aufpasst, kann das leicht zu „Martin, bring den Müll runter!“ werden, was Martin nicht ganz so entspannt kommentieren dürfte wie die nette Stimme aus dem Off.

Andere hingegen meinen zu beobachten, dass Nutzer der Spracherkennung ihre Wünsche von sich aus gerne mit einem „Bitte“ beenden. Und schließlich sei es kinderleicht, dem Roboter einzuprogrammieren, dass er einem ein solches Höflichkeits-Signal abverlangt, bevor er im Sinne des Auftraggebers tätig wird. Das werde eine neue Generation von höflichen Kindern heranziehen, die der Oma dann sprachlich mit genauso viel Respekt begegnen würden wie Alexa und Co., vermuten manche. Beide Thesen werden sich in wissenschaftlichen Arbeiten überprüfen lassen, denn Daten dürften bald reichlich zur Verfügung stehen.

Wie die Voice Technologie den Umgang mit dem Internet und damit womöglich die Gesellschaft verändern kann, wird sich schwieriger überprüfen lassen. Einerseits könnte sie zum großen Demokratisierer werden, den digitalen Graben überbrücken und alle ans Netz anschließen, denen das Digitale bislang zu fremd, zu kompliziert oder aus anderen Gründen verschlossen war. Andererseits könnte es uns zu noch beflisseneren Vasallen der mächtigen Plattform-Konzerne machen: durchschaubar, denkfaul und orientierungslos.

Die optimistische Variante geht so: Künftig muss man sich weder über ein Smartphone beugen noch auf einen Bildschirm starren, um sich in der vernetzten Welt kompetent zu bewegen, ja man muss noch nicht einmal lesen und schreiben können. Wer sich sprechenderweise bemerkbar machen und Wünsche äußern kann, hat Zugang zu allen Dienstleistungen, die über das Internet zur Verfügung stehen – vorausgesetzt, der Roboter erkennt nicht nur die Sprache sondern auch den jeweiligen Dialekt. Damit könnten auch Analphabeten online tätig werden. Geschätzt haben 700 Millionen Menschen mehr oder weniger große Schwierigkeiten mit dem Lesen und Schreiben, also etwa jeder zehnte.

Aber auch diejenigen, denen „all der Digitalkram“ bislang zu kompliziert war, könnten Gefallen daran finden. Das betrifft übrigens nicht nur Großeltern. Deren digitale Beweglichkeit ist, getrieben von der Sehnsucht nach den Enkeln, mitunter erstaunlich ausgeprägt. Nutzer jeden Alters, denen das geschriebene Wort noch nie viel bedeutet hat, denen Fingerfertigkeit, Sehkraft oder schlicht die Muße fehlen, mit kleinen Bildschirmen zu hantieren, lassen sich womöglich lieber auf eine Art Dialog mit Maschinen ein.

Hinzu kommt, dass der Blick aufs Gerät bei manchen Tätigkeiten schlicht gefährlich sein kann. Das betrifft vor allem das Navigieren im Straßenverkehr. Fast jeder hat schon diese vermeintlich lustigen Videos gesehen, bei denen Fußgänger, den Blick gen Smartphone gesenkt, gegen Laternenpfähle donnern oder in Tümpel stolpern. Allerdings zeigt auch die Kurve tödlicher Autounfälle nach Jahrzehnten des Absinkens wieder nach oben. Ablenkung durchs Handy gilt als ein gewichtiger Grund dafür.

„Spracherkennung lässt die Technik in den Hintergrund treten, ja unsichtbar werden“, sagt Nic Newman, Tech-Forscher und Autor der Studie „The Future of Voice and the Implications for News“des Reuters Institutes for the Study of Journalism. Das werde den Umgang mit dem Internet spielerischer machen und viele neue Angebote hervorbringen.

Die schlauen Geräte lenken nicht so ab wie ständig blinkende Screens, sie bleiben stumm und unaufdringlich, solange man nichts von ihnen will. Sie machen deshalb vermutlich auch weniger süchtig als Smartphones, wenn man denn in diesem Zusammenhang von Suchtverhalten sprechen kann. Mal schnell nachschauen, ob es nicht doch irgendetwas Neues gibt, diesen Reflex sollten sie jedenfalls weniger auslösen als ein Gerät, das mit visuellen Reizen arbeitet. „Wir verbringen alle viel zu viel Zeit mit Bildschirmen. Unsere Augen und Gehirne sind müde, wir sind von kleinen rechteckigen Geräten abhängig geworden“, sagt Newman, „Spracherkennung wird uns davon befreien und dem Menschen die Kontrolle zurückgeben.“

Aber Experten wie Newman halten die Technik nicht nur deshalb für transformativ. Insbesondere Menschen, die motorisch eingeschränkt sind, könnten massiv von ihr profitieren. Der britische Landkreis Hampshire testet gerade in einem Pilotprojekt, in welchem Ausmaß smarte Hör-Geraete und ihre Chatbots Behinderten und Betreuungsbedürftigen als Ansprechpartner zur Verfügung stehen können, um sie zum Beispiel an Medikamente zu erinnern, Hausgeräte zu steuern oder im Notfall Botschaften weiterzuleiten – nicht, um Pflegepersonal zu ersetzen, sondern Hausbesuche zu ergänzen, wie das zuständige Amt versichert.

Generell senkt die Technik die Hemmschwelle für Bürger, sich an ihre Gemeinde oder andere öffentliche Stellen zu wenden. Es kostet die meisten Menschen weniger Überwindung, mal eben in ein Gerät zu sprechen, um etwas zu fragen oder zu melden, anstatt sich zu dem zuständigen, womöglich schlecht gelaunten Sachbearbeiter durchzufragen oder ein Formular auszufüllen. Wenn es denn funktioniert.

Die Chancen dafür stehen recht gut. Der technische Fortschritt auf dem Feld ist gewaltig, die Software der Geräte wird dank der ständigen Fütterung mit Daten immer besser. Vor allem im Handel ist ein Wettlauf im Gange, um den Kunden mit Sprach-Dienstleistungen abzuholen, wie es so schön heißt, und das hoffentlich schneller als die Konkurrenz. Der Marktforscher Gartner prognostiziert, dass die Firmen, die früh in Voice Technologie investieren, ihren Einzelhandels-Umsatz um 30 Prozent steigern können. 2021 dürfte jede zweite Firma mehr in Bots und Chatbots investieren als in Apps.

Allerdings, und jetzt kommen die Warnhinweise, gibt es auch ein paar Risiken. Das bekannteste betrifft den Datenschutz. „Smart talking: are our devices threatening our privacy“, überschreibt der britische Guardianeinen Text von James Vlahos, und man möchte rufen: „Ja was denn sonst?“ Dass die Smart Speaker das Smartphone in seinen Spionage-Fähigkeiten noch um einiges übertreffen, ist mehr als offensichtlich. Denn weil sie passiv im Hintergrund „lauern“, vergisst man gerne, dass es sie gibt. Ausschalten geht zwar, aber es beraubt sie ihrer Funktion.

Vlahos‘ Stück ist ein Vorabdruck aus seinem Buch, dessen Titel „Talk to Me: Apple, Google, Amazon and the Race for Voice-Controlled AI“ (Random House Penguin, 2019) auf einen Blick klar macht, wer diese neuen Zufahrtsstraßen zum Internet kontrolliert. Zwar beteuern die genannten Konzerne auf allerlei Weise, wie sie die Privatsphäre ihrer Kunden zu schützen gedenken, aber dennoch ergeben sich einige ethische und juristische Probleme aus der rasant wachsenden Anwendung der Geräte. So zitiert Vlahos einen Jura-Professor der Fordham Law School in New York, Joel Reidenberg, der sagt: „Wenn Sie ein Gerät installiert haben, das zuhört und Daten an Dritte überträgt, haben Sie Ihr Recht auf Privatsphäre verwirkt.“ So schnell kann es dahingehen mit den Bürgerrechten.

Und wer ist dafür verantwortlich, eventuell Hilfe zu alarmieren, wenn zum Beispiel ein Kind seiner mit einem Sprachempfänger ausgestatteten Barbie-Puppe anvertraut, jemand habe es seltsam angefasst? Man kann gewiss sein, dass sich bereits jetzt reihenweise Anwälte mit dem Thema beschäftigen. Wie man weiß, übernehmen die großen Datenkonzerne ungerne Verantwortung für das, was sie auslösen, wenn die Folgen denn negativ sind. Ganz abgesehen davon, dass die Gefahr des Hackens mit der Zahl der Gegenstände wächst, die kontinuierlich Daten zum Nutzerverhalten übermitteln, ob das nun die Mikrowelle, die Heizung oder das Auto ist.

Allerdings gibt es noch ein paar weniger offensichtliche Fragezeichen zur Voice Technologie als die Sorge um die Privatsphäre. Denn einerseits ist es natürlich wunderbar, wenn Dinge einfacher werden. Andererseits könnte es auch dazu führen, dass wir bestimmte Hirnregionen nicht mehr trainieren, wenn wir uns nur noch in den Wunsch- und Erwartungsmodus begeben. Schon heute werden ohne Google Maps selbst diejenigen unter uns schnell orientierungslos, die jahrzehntelang problemlos mit Hilfe von Stadtplänen und Landkarten ihren Weg gefunden haben. Bestimmte kognitive Kompetenzen bilden sich offenbar schnell zurück. Und das könnte auch für das Lesen und Verstehen von Texten gelten. Nicholas Carr hatte sich über diesen Effekt in seinem Buch „The Shallows – What the internet is doing to our brains“ (W. W. Norton, 2011) schon lange vor dem Siegeszug der Spracherkennung ein paar Gedanken gemacht.

Die Vermutung liegt nahe: Wer sich regelmäßig von Alexa oder Google Home den Nachrichten-Überblick vorlesen lässt – der natürlich je nach Auswahl von der BBC, der Tagesschau oder anderen Redaktionen stammt – mag sich womöglich nicht mehr mit ausführlicherer Lektüre zum Tagesgeschehen beschäftigen. Zwar haben Radio und Fernsehen diesen Effekt auch schon geliefert, aber der smarte Lautsprecher lässt sich wie das Smartphone für so viele Funktionen nutzen, dass die Information nur eine davon ist. Laut Newmans Studie interessieren sich zwar eine ganze Menge Voice-Nutzer für die Nachrichten, aber nur ein Prozent von ihnen findet dieses Angebot auch wichtig. Der weit überwiegende Teil der Konsumenten nutzt die Geräte bislang vor allem fürs Musikhören auf Kommando.

Ein Trend dürfte sich verstärken: Vieles im Netz befeuert unsere Bequemlichkeit und unsere Ungeduld gleichermaßen, alles muss schnell und ohne viel Mühe in unsere Nähe gelangen. Das offensichtlichste Zeugnis davon sind vermutlich die Fahrradboten von Lebensmittel-Bring-Diensten, die sich in vielen Städten so schnell vermehren, wie man es von den dazu passenden Radwegen gerne hätte. Der Weg vom Hunger zum Essen führt immer seltener über den Supermarkt und die Küche zum Teller, mundgerechte Lieferung wird zum Standard und das durchaus auch im übertragenen Sinne.

Absehbar ist zudem, dass sich die Macht im Internet weiter auf wenige große Plattform-Konzerne konzentriert. Eine Google-Suche am Bildschirm fördert zuweilen Tausende, sogar Millionen Treffer zutage, selbst wenn sich die Wenigsten die Mühe machen, auf die vierte Seite der Suchergebnisse zu gehen. Das Voice-Gerät hingegen lässt exakt eine Antwort zu, wenn man keine weitere anfordert. Scott Galloway, Professor der New York University, hat deshalb schon prognostiziert, dass Spracherkennung der Tod des Markenartikels sein könnte. Der Kunde werde vermutlich eher Produktkategorien ordern („Ich brauche Zahnpasta“) als Markenartikel, der dahinterliegende Händler könne dann seine Lieferanten entsprechend preislich unter Druck setzen. Das Ergebnis ist ein Verdrängungswettbewerb, der sich zugunsten der ohnehin schon Starken entscheiden dürfte, doch die werden in Maßen profitieren. Denn der Kunde wird Markennamen im akustischen Raum kaum noch wahrnehmen.

Eine große Herausforderung dürfte die Sprache selbst sein. Im englischsprachigen Raum mag die Spracherkennungs-Technik als rundum positiv gesehen werden, dort setzt sie sich rasant durch. In den USA und Großbritannien nutzt schon mindestens jeder Zehnte einen Smart Speaker, immerhin sind die Geräte derzeit schon für 21 Sprachen in 36 Ländern erhältlich. Aber es wird noch eine Weile dauern, bis auch der letzte Dialekt verstanden wird. Außerdem haben die Lautsprecher noch Schwierigkeiten damit, Stimmen zuzuordnen oder Wünsche im Zusammenhang zu begreifen. (Wer daheim Alex oder gar Alexa gerufen wird, stiftet vermutlich besonders viel elektronische Verwirrung.)

Ob die Boxen ihre Nutzer wirklich verstehen, hängt stark davon ab, wieviel sich diese mit ihnen abgeben. Denn die Technik lernt umso besser, je mehr Daten sie verarbeiten kann. Ob sie den Menschen allerdings jemals in der ganzen Komplexität seiner Kommunikation „begreifen“ wird, lässt sich getrost bezweifeln. Zu der gehört schließlich viel mehr als nur die Sprache. Manchmal verstehen wir uns schließlich nicht einmal selbst.

Dieser Text erschien in leicht veränderter Form in „ada – Heute das Morgen verstehen“, Ausgabe 02/2019