Smarte Sprachassistenten und Co.: KI wird uns nicht überflügeln

Ende Juni 2019 finden in Hamburg die tell-me days statt, eine Konferenz, bei der sich alles um Chatbots, Künstliche Intelligenz und smarte Sprachassistenten drehen wird. Speaker von OTTO, IBM, Adobe und mehr präsentieren aktuelle Projekte sowie Hochschul-Vertreter Ergebnisse aus der Forschung. Anlässlich dieses Termins beleuchtet Professor Peter Kabel von der HAW Hamburg für hitech-campus.de den Status Quo von Alexa, Siri und Co.

Die vermutlich bekanntesten künstlichen Gesprächspartner sind Alexa und Siri. Beide werden beständig um Skills erweitert. Wird es möglich sein, flexible Gespräche mit ihnen zu führen?
Sowohl Amazon (Alexa), Google (Assistant) und Apple (Siri) verstehen sich als Betriebssysteme, die auf verschiedenen Hardware-Plattformen verfügbar sind. Bei einer Vielzahl der nun entstehenden Anwendungsfälle geht es dabei nicht darum, „Gespräche“ zu führen, sondern Aufgaben schnell und unkompliziert ausführen zu können. Die Technologie entwickelt sich stetig weiter und ist insbesondere bei der Spracherkennung (NLP = Natural Language Processing) schon beeindruckend gut. NLG (Natural Language Generation) ist noch weniger entwickelt, aber auch dabei sind die Fortschritte beeindruckend, wie man anhand des kürzlich demonstrierten Google Duplex Services erkennen konnte, der automatisiert via Telefon bei einem Restaurant einen Tisch reservieren, oder bei einem Damenfriseur einen Termin vereinbaren konnte, ohne dass das Gegenüber Verdacht geschöpft hätte.

Hauptproblem sind nicht die Erkennung und Ausgabe von Sprache, sondern das, was geschehen soll, wenn ein Mensch eine Frage, oder einen Wunsch äußert. Möchte ich eine Zugfahrkarte kaufen, muss die Bahn entsprechende Programmschnittstellen (APIs) bereitstellen, die Zugriff auf die Systeme ermöglichen, damit die Assistenten den Wunsch auch umsetzen können. An dieser Stelle jedoch sind die meisten Unternehmen noch nicht sehr weit, weshalb bei aller „Intelligenz“ die Assistenten eben noch nicht so gut arbeiten können, wie dies prinzipiell technisch möglich wäre.

Schon vor zwei oder drei Jahren vermehrten sich die Stimmen, dass die Bedeutung von Tastaturen abnehme und immer mehr Geräte über Sprache gesteuert würden.
Wir stehen am Beginn einer fundamentalen Veränderung. Die Art, wie Menschen mit Computern interagieren, wird sich noch einmal vollständig verändern. Dabei geht es nicht nur um gesprochene Sprache, sondern vor allem um natürliche Sprache, die sowohl mit Tastaturen als auch via gesprochener Sprache angewandt werden kann. Das Versprechen sogenannter Conversational User Interfaces ist, dass nicht die Menschen sich an die Befehls-Strukturen von Computern anpassen müssen, sondern die Computer „verstehen“, was die Menschen wollen. Ich gehe davon aus, dass die Entwicklung in den kommenden fünf Jahren schon sehr gut sichtbar sein wird und sich in viele Lebensbereiche ganz natürlich ausgebreitet haben wird. Viele Websites und Mobile-Apps werden dadurch in der aktuellen Form überflüssig.

Derartige Entwicklungen beginnen in der Regel langsam, die ersten Vorboten erscheinen lächerlich ungenügend. Aufgrund meines Alters habe ich die ersten Tage des Internets miterlebt. Die ersten Websites Mitte der 90iger Jahre waren plumpe, nutzlose Angebote. Die ersten Apps konnten nichts und der Gipfel war die, die ein Bierglas auf dem Bildschirm zeigte, das man „kippen“ konnte. Was aus dem World Wide Web in den 10 Jahren von 1995 bis 2005 und dem MobileÖkosystem von 2005-2010 geworden ist, wissen wir. Im Bezug auf Conversational stehen wir noch ganz am Anfang und die technologischen Herausforderungen sind um einiges größer, als dies bei Internet und Mobile war. Die Entwicklung aber geht gleichzeitig immer schneller.

Ich denke es ist wichtig, in diesem Zusammenhang noch darauf hinzuweisen, dass auch künftig Bildschirme eine Rolle spielen werden und nicht alle Use-Cases nur über gesprochene Sprache geführt werden können. Wir sprechen daher von einem Multi-Modalen System, bei dem man vielleicht den Wunsch zum Kauf eines Schuhes per Voice an Alexa gibt, diese dann aber eine Reihe von Vorschlägen auf dem Bildschirm des Kühlschranks in der Küche anzeigt, man dort per Sprache eine Auswahl trifft und später gegebenenfalls den Dialogverlauf auf dem Smartphone noch einmal schriftlich nachvollziehen kann.

Es gibt eine ganze Reihe von Hands-Free- Voice-Use-Cases, die natürlich beeindruckend sind, weil alles scheinbar mit Zauberei funktioniert. Es gibt aber eine viel größere Anzahl von Use-Cases, bei denen Bildschirme aller Art – vom TV im Wohnzimmer bis zur Smartwatch – eingebunden sein werden. Auch die Anbieter von Smartspeakern haben ja Geräte mit kleinen Bildschirmen im Angebot.

Aktuell behindern vor allem fehlende APIs die Möglichkeiten, die Sprachassistenten jetzt schon bieten könnten

Welche industriellen Anwendungen haben smarte Assistenten? Oder sehen Sie den Einsatz immer dort, wo Menschen miteinander agieren würden, so – dass HMI beispielsweise in der Altenbetreuung eingesetzt werden könnte?
Conversational User Interfaces (CUI) und Intelligente Assistenten können in nahezu allen Bereichen zum Einsatz kommen. So gibt es beispielsweise den Fremdsprach-Tutor Lily, der einem geduldig, wie es kein Lehrer aus Fleisch und Blut je könnte, beim Erlernen von Mandarin/Chinesisch und später bei weiteren Fremdsprachen begleitet. In der Altenbetreuung werden ebenfalls schon Versuche gestartet, einfache Routine-Aufgaben mit Sprachsteuerung zu erledigen, um die freiwerdenden Personalressourcen echter Altenbetreuer für komplexere Aufgaben einsetzen zu können.

Generell muss man sagen, dass CUIs und Assistenten sich gut für immer wieder kehrende Standard-Aufgabenstellungen eignen und daher auch darin für die absehbare Zukunft die Hauptanwendung liegt und komplexe, überraschende Aufgabenstellungen eben weiterhin von Menschen ausgeführt werden. Auch wenn der öffentliche Diskurs den Eindruck erweckt, als würden Künstliche Intelligenzen uns schon in Kürze überflügeln, ist dies nicht der Fall. Maschinen „verstehen“ nichts und können daher auch keine „Intelligenz“ ausüben. Was Maschinen aber erreichen, in dem sie Spracheingabe analysieren und in der Folge vorgegebene Prozesse auslösen, ist dennoch wirklich beeindruckend.

Wie stark ist die Überwachungsgefahr durch smarte Assistenten?
Spracherkennung und andere Aspekte der Systeme basiert auf Machine Learning. Dieses Learning erfolgt auf Basis von Fehlern und deren kontinuierlichen Korrektur. Aus diesem Grund ist es selbstverständlich und – aus meiner Sicht – auch vollkommen unproblematisch, wenn Anbieter diejenigen Protokolle durch Menschen auswerten, bei denen es zu Fehlern kam, die Maschine, also nicht zur Zufriedenheit der Nutzer agiert und reagiert hat. Ich gehe davon aus, dass diese Fehlerprotokolle vor der Verarbeitung durch Mitarbeiter der Firmen anonymisiert werden und daher auch keine Problem der Verletzung der Persönlichkeitsrechte entsteht.

Alle Voice-Systeme funktionieren mit sogenannten Wake-Words. Im Falle von Amazon Alexa eben „Alexa“. Zwar sind die Mikrofone der Smartspeaker ständig an und „hören“ daher natürlich alles, was in der Umgebung geschieht. Diese Daten allerdings werden nur lokal – also im jeweiligen Smartspeaker – verarbeitet und die Verbindung zum Internet wird nur dann geöffnet, wenn das Wake-Word gesprochen wurde. Wer daran Zweifel hat, kann dies einfach an seinem häuslichen Internet-Router überprüfen und wird feststellen, dass es eben ohne Wake- Word auch keinen Datenverkehr gibt.

Mehr zu Sprachassistenten, Künstlicher Intelligenz und Chatbots erfahrt ihr auf den tell-me days.