Trends

ChatBots aus der Hölle: Hype oder sind Conversational Interfaces wirklich die Zukunft?

Manuel Brückmann

28. September 2017, Lesezeit: 39 Minuten

6

Conversation Commerce

Ob Siri, Alexa, Cortana, Jarvis oder Watson – seit einigen Jahren experimentieren Unternehmen, meist aus Silicon Valley wie Apple, Google, Microsoft, IBM und Facebook, mit künstlicher Intelligenz und der neuen Mensch-Maschine-Schnittstelle Conversational (User) Interfaces, kurz CUI. Eben solange spricht man schon in unzähligen Berichten von einem „Paradigmenwechsel, …der Evolution, …der Zukunft“. Ist da was dran? Nur ein Hype, ein Trend oder doch Zukunftsmusik?

Eine Frage, die wir uns selbst auch stellen mussten. Denn wozu braucht es noch Conversion Optimierer, Online Marketer, SEOs und Co., wenn Maschinen lernen mit Kunden direkt zu kommunizieren. Ohne Bildschirm, ohne Umwege. Wenn der eCommerce zum Conversational Commerce wird und es keine Websites mehr geben muss, um Produkte und Dienstleistungen an den Mann oder die Frau zu bringen. Keine Schnittstelle, welche sich nach allen Regeln der Kunst analysieren, testen, personalisieren und optimieren lässt. Stehen wir heute schon an diesem Wendepunkt? Können wir unsere Kunden der künstlichen Intelligenz anvertrauen?

Diese und weitere Fragen werde ich in diesem Artikel auf den Grund gehen, vorrangig ob Conversational (User) Interface heute schon einen Praxisnutzen haben, nur eine Spielerei sind oder sich sinnvoll zur Interaktion mit Kunden und sogar für eCommerce einsetzen lassen. Ich werde beleuchten was hinter dem Buzzword steckt, welche Möglichkeiten bestehen, welche Schattenseiten existieren und konkrete Tipps und Beispiele vorstellen, ob und wie sich CUIs für das eigene Geschäftsmodell einsetzen lassen.

Hier die Inhalte in der Übersicht:

Hintergründe: was sind überhaupt CUIs?
Chatbots und Sprachassistenen
Künstliche Intelligenz
Beispiele, Use Cases, Best Practices
Stärken von Conversational Interfaces – wirklich ein Paradigmenwechsel?
Wo stehen wir heute?
Ganz konkret: Welche Auswirkungen hat das für uns?
Conversational Commerce
Online Marketing, SEO, Advertisement
Conversion Optimierung
Tipps: worauf muss man achten?
Fazit

Hintergründe: was sind überhaupt CUIs?

Am Anfang war das Wort. So beginnen unzählige Fachartikel zum Thema. Diese kurz zusammengefasst: Bei Conversational User Interfaces handelt es sich um die logische Weiterentwicklung der GUIs (Graphical User Interfaces). Anstelle einer grafischen Benutzeroberfläche wird Sprache in geschriebener oder gesprochener Form genutzt, um anstelle von Maus oder Finger (Touch) mit dem Computer zu interagieren.

Facebook M - Bot für Facebook Messanger — Beispiel für einen ChatBot. In diesem Fall Facebook M für Facebook Messenger. Quelle: Facebook.

Man spricht dabei deshalb von einer Evolution, weil die GUIs wiederum als Weiterentwicklung der Befehlskonsole früherer Computer Generationen geschaffen wurden, um die Nutzung näher an gewohnte, gelernte, physische Alltagspraktiken heran zu bringen. Mit anderen Worten intuitiver zu machen. Bis heute haben so Schreibtisch, Ordner, Papierkorb und Co. überlebt und Arbeitsabläufe aus der realen in die virtuelle Welt übertragen (beispielsweise ein Dokument in den Papierkorb zu legen).

Bei CUIs ist es eben so, nur einen Schritt weiter. Denn noch intuitiver als die motorische Koordination und Nachahmung von Alltagssituationen ist unsere Sprache. Das Prinzip: Wir sagen oder schreiben was wir wollen und die Maschine versteht uns. Noch besser, wir unterhalten uns mit ihr. Wir fragen, sie antwortet. Sie fragt, wir antworten. Eine bidirektionale Kommunikation. Und jetzt kommt der eigentliche Knackpunkt: Sie versteht uns nicht nur, sondern sie entscheidet auch selbstständig. Mehr zu den Stärken der CUIs im Verlauf von künstliche Intelligenz und im Kapitel Paradigmenwechsel.

Chatbots und Sprachassistenen

Chatbot Landkarte 2017 - KeyReply — Eine Landkarte bekannten Chatbots (2017). Quelle: KeyReply.

Conversational Interfaces beschreiben die Sprachverarbeitung und -kommunikation als Schnittstelle, unabhängig davon in welchem Medium diese vorliegt. Deshalb kann es sich dabei sowohl um geschriebene als auch gesprochene Sprache handeln, denn es gelten die gleichen Prinzipien. Eine treffendere Bezeichnung wäre eigentlich „Textverarbeitungs-und-Kommunikations-Schnittstelle“. Das würde aber wahrscheinlich zu sehr an eine Microsoft Word Erweiterung erinnern (und klingt auch nicht besonders „fancy“). Die Text-Versionen der CUIs werden daher überwiegend als ChatBots bezeichnet.

Keine Überraschung. Im Wesentlichen liegt es daran, dass man mit ihnen eben chattet, also eine Konversation betreibt (auf Webseiten, sozialen Medien, Chat-Programmen). Ihre Aufgabe dabei ist es nicht nur den Mensch zu verstehen (Inhalt), sondern auch die Zusammenhänge nachzuvollziehen (Kontext) und Ableitungen zu treffen. Die dritte Herausforderung besteht darin, an welcher unter anderem der Praxisnutzen in den vergangen Jahren immer wieder gescheitert ist: Sie sollen dabei einen Menschen imitieren, also die Kommunikation menschlich und authentisch wirken lassen.

Mit einem Satz:
ChatBots sind Computer Programme deren Aufgabe es ist, eine authentische Kommunikation mit einem Menschen zu imitieren.

Für CUIs die darüber hinaus in der Lage sind zu sprechen und zu hören, gilt dieses Prinzip gleichermaßen. Auch für sie gäbe es sicherlich treffendere Bezeichnungen. Da diese überwiegend als Assistenten eingesetzt werden, bezeichnet man sie als Sprachassistenten.

Sprachassistenten in der Übersicht - Quelle: Smarthomeassistent — Die aktuell verfügbaren Sprachassistenten in der Übersicht. Quelle: Smarthomeassistent

Der Unterschied liegt tatsächlich „nur“ in der erweiterten Fähigkeit für Text-to-Speech. Das ironische „nur“ in Anführungszeichen, da es gerade die zentrale Aufgabe der Conversational Interfaces ist, den Menschen zu imitieren. Die Phonetik unsere Sprache(n) stellte in der Vergangenheit die Maschine, also vor allem deren Schöpfer, vor große Herausforderungen. Hier hat die Technologie in den letzten 5 – 10 Jahren wahnsinnige Fortschritte gemacht. Wer sich noch an die ersten Text-to-Speech Funktionen im Mac erinnert, welche unterhaltsam aber alles andere als authentisch waren, weiß was damit gemeint ist.

Inzwischen klingen die Sprachassistenten wie Siri, Alexa, Cortana, Jarvis und Co. nicht nur „echter“, sie verstehen uns auch immer besser. Denn was nützt ein Assistent, der mich einfach nicht versteht. Hierzu mehr im Kapitel Wo stehen wir heute.

Wir finden Sprachassistenten mittlerweile in allen Computerformen. Neben dem klassischen Desktop vor allem in Smartphones, Tablets, Wearabels (tragbare Technologie z. B. in Form von Uhren) und sogenannte IoT-Geräten (Internet-of-Things). Gerade letzteres haben es geschafft, beispielsweise mit Amazon Echo, eine Brücke in den Alltag zu schlagen (z. B. durch die Steuerung des Hauses über die Sprache).

Prinzipiell sind CUIs überall dort zu finden, wo wir die Hände für andere Dinge brauchen. Meistens um unseren Alltag komfortabler oder effizienter zu gestalten. Aber auch dort, wo wir uns nicht von einem Display ablenken lassen sollten (z. B. im Auto). Auch hier mehr dazu im Kapitel Stärken.

Karl Klammers "Clippy" is Rache — Schon früher gab es den Ansatz eines CUI, leider ohne Erfolg.

Wirklich neu ist die Idee übrigens nicht. Der größte Unterschied zu den (gescheiterten) Gehversuchen in der Vergangenheit (z. B. Karl Klammer bei Microsoft Word oder in Avatare / Assistenten in Konfiguratoren im Web 2.0 vor ein paar Jahren) liegt im technologischen Fortschritt der künstlichen Intelligenz. In der Vergangenheit versuchte man nämlich die maschinelle Verarbeitung von geschriebener und gesprochener Sprache mit umfangreichsten Regel-Sets zu bewältigen. Deshalb konnte man auch kaum von nennenswerten Fortschritten berichten.

Künstliche Intelligenz

Das Beispiel von Samantha aus dem Spike Jonze Film „Her“ von 2013 zeigt, wie eine KI als Sprachassistent sein könnte.

Noch ein beliebtes Schlagwort der jüngsten Vergangenheit: Viele Softwareanbieter (unter anderem auch im Online Marketing, Web Analytics, Testing und Personalisierung) werben mit: „Jetzt NEU, auch mit künstlicher Intelligenz“. Natürlich etwas überspitzt. Letztlich ist KI (auch AI bzw. Artificial Intelligence) keine neue Erfindung und vor allem erst mal nur ein Sammelbegriff, der an sich wenig aussagt. Er wird häufig dann eingesetzt, wenn man nicht ins Detail gehen möchte.

Künstliche Intelligenz gibt es schon sehr lange, auch die verschiedenen Teilgebiete die unter anderem für CUIs eingesetzt werden. Allerdings hat sich durch die Rechenleistung der (Super)Computer der letzten Jahre auch die Möglichkeiten und damit die Fähigkeiten der künstlichen Intelligenz wesentlich verbessert. Aber vor allem ist diese Technologie jetzt einfacher zugänglich.

Was ist also künstliche Intelligenz?

Wie gesagt beschreibt der Begriff allgemein alle Technologien im Zusammenhang mit der Erbringung von Intelligenzleistungen, die bislang dem Menschen vorbehalten waren.

Innerhalb der künstlichen Intelligenz unterscheidet man in zwei Kategorien: stark und schwach. Die starke KI beschreibt dabei einen Zustand, in dem eine Maschine im Grunde zu allem fähig ist, wozu ein Mensch ebenfalls in der Lage wäre. Sie übt wohl die größte Faszination auf uns aus, weshalb vor allem Science-Fiction Filmemacher dieses Thema schon seit Generationen immer wieder aufgreifen. Das Konzept der starken KI geht bislang jedoch (noch) nicht über die philosophische Ebene hinaus.

Die schwache KI hingegen befasst sich damit, einzelne Fähigkeiten des Menschen auf Maschinen zu übertragen, wozu unter anderem die für CUIs erforderliche Text- und Spracherkennung, aber auch das Erkennen von Bildinhalten, das Spielen, das Gehen usw. zählen. Hierbei hat die Technologie in den letzten Jahren die größten Fortschritte gemacht.

Im Zusammenhang mit künstlicher Intelligenz hört man immer wieder Begriffe wie „Machine Learning”, „Deep Learning”, „Natural Language Processing” und „neuronale Netze”. Dabei handelt es sich entsprechend um Teilgebiete der künstlichen Intelligenz, teilweise um Teilgebiete innerhalb dieser Teilgebiete. Im Grunde sind heutzutage meistens Methoden des Deep Learnings mit neuronalen Netzen gemeint, wenn von künstlicher Intelligenz die Rede ist. Im Zusammenhang mit Conversational User Interface sind neben den beiden letztgenannten vor allem das Natural Language Processing (NLP) relevant.

Natural Language Processing, welches mit „Verarbeitung natürlicher Sprache” übersetzt werden kann, ist eigentlich ein recht altes Forschungsgebiet innerhalb der Erforschung der Mensch-Maschine-Schnittstelle und kann erst seit einigen Jahren korrekt unter den Oberbegriff maschinelles Lernen (ML oder Machine Learning) subsumiert werden.
Denn wie bereits erwähnt, wurde hier in der Vergangenheit eher auf Basis von Schlagworten mit regelbasierten Datenbankabfragen eine Kommunikation nachgebildet. Ein sehr aufwendiges und entsprechend limitiertes, starres Verfahren.

Erst die Methoden des maschinellen Lernens beschleunigten die Entwicklung des NLP, zu deren wichtigsten Aufgaben

die optische Zeichenerkennung (OCR, z. B. die Schildererkennung im Auto oder das Umwandeln eines Scans in Text),
Übersetzungen zwischen unterschiedlichen Sprachen (z. B. Google Translate) und für CUIs am wichtigsten
die automatische Beantwortung „natürlichsprachlicher Fragen“ und
die Spracherkennung selber zählen.

Heutzutage werden für Teilbereiche des NLP (vor allem für die Spracherkennung) die Methoden des Deep Learning verwendet.

Deep Learning ist ein Teilbereich des maschinellen Lernens oder besser gesagt eine Lernmethode im Rahmen maschinellen Lernens, welche unser Leben in den nächsten Jahren wohl am stärksten verändern wird. Dabei wird in der Regel mit künstlichen neuronalen Netzen gearbeitet, um zu besonders effizienten Lernerfolgen zu gelangen. Häufig wird deshalb auch Deep Learning als Synonym für künstliche neuronale Netze eingesetzt.

Unter Verwendung dieser neuronalen Netze versetzt sich die Maschine sozusagen selbst in die Lage, Strukturen und Muster zu erkennen, diese Erkennung zu evaluieren und sich in mehreren vorwärts wie rückwärts gerichteten Durchläufen selbständig zu verbessern. Sie sind zu diesem Zweck in mehrere Schichten geteilt, welche man sich prinzipiell wie bei einer progressiven JPEG Komprimierung oder als eine Art Filter vorstellen kann: Erst ganz grob, dann stufenweise immer feiner. Auf diese Weise soll die Wahrscheinlichkeit der Erkennung und Ausgabe eines korrekten Ergebnisses erhöht werden. Das menschliche Gehirn arbeitet übrigens ähnlich.

Der Fortschritt der letzten Jahre ist vor allem auf leistungsfähigere Hardware für die erforderlichen Rechenoperationen zurückzuführen. Aber auch auf die Tatsache, dass immer größere Datenmengen unproblematisch für das Training der neuronalen Netze zur Verfügung stehen. Der Vorteil von Deep Learning besteht vor allem darin, dass sich das System nach dem initialen Training während der laufenden Anwendung stets weiter entwickelt und dazu lernt. Also mit anderen Worten neu gesammelte Erkenntnisse verarbeitet, einordnet und mit anderen in Verbindung bringt. So soll sich das System wie ein menschliches Gehirn ständig selbst optimieren, wodurch die Erkennungsgenauigkeit und letztlich der Nutzen immer größer werden.

Um das zu ermöglichen setzt Deep Learning im Gegensatz zu anderen Verfahren nicht auf einen deterministischen Algorithmus, sondern auf die sogenannte statistische Datenanalyse. Diese Form der Analyse wird immer dann erforderlich, wenn keine klaren Regeln bekannt sind. Das Interessante daran ist, dass wenn die Maschine den Vorgang einmal verinnerlicht hat, sie weitaus schneller als wir Menschen arbeiten kann. Bedeutend schneller. Diese Tatsache macht Deep Learning auch insbesondere bei der Automatisierung oder der Datenanalyse für A/B Testing und Personalisierung interessant.

Ein paar weitere Beispiele, Use Cases, Best Practices

ChatBots

Facebook M - Messanger Bot als Persönlicher Assistent — Der Facebook M Bot als Assistent innerhalb des Facebooks Messengers.

Magic - CUI — Das Beispiel zeigt Magic, wobei die Magic in diesem Fall nicht die Maschine, sondern menschliche Sachbearbeiter machen.

Operator für Conversational Commerce — Best Practice für Conversational Commerce mit Operator.

Tacobot in Slack — Das Beispiel zeigt einen Tacobot in Slack.

Googles @google Bot in Allo — Googles Antwort auf den Facebook Messenger sollte “Allo” sein, viel interessanter ist jedoch der @google Bot im Messenger.

Sprachassistenten

Das Video von Amazon zeigt, wie einfach Conversational Commerce sein kann.

Staples zeigt eine Variante für den Geschäftsalltag, mit IBM Watson.

Stärken von Conversational Interfaces – wirklich ein Paradigmenwechsel?

Beschäftigt man sich etwas näher mit dem Thema, so liest man in diesem Zusammenhang immer wieder Begriffe wie Paradigmenwechsel, Evolution und Zukunft. Ist da wirklich was dran?

Die 5 Stärken von CUIs zusammengefasst:
1. Inhalt wird zum Medium selbst
2. Virtuelle Assistenten
3. Zugänglichkeit
4. Niedrige Einstiegshürden
5. Neue Jobmöglichkeiten und Perspektiven

1. Der Inhalt wird zum Medium selbst

Da Conversational User Interfaces die Konversation mit einer realen Person imitieren, erfolgt die Kommunikation und damit die Interaktionen zwischen Menschen und Maschinen ohne eine visuellen Übersetzungsleistung. In den letzten Jahren beobachteten wir schon den Wandel vom UserInterface- zum UserExperience-Design, wodurch der Nutzer weiter in den Fokus rückte. Der aktuelle Trend der Customer Experience überträgt dieses Prinzip auf die Kundenbeziehung und beschränkt sich damit nicht mehr auf einzelne Medien und Kanäle, sondern betrachtet die Erfahrung des Kunden als zentralen Aspekt. Durch CUIs wird dieses Prinzip noch einen Schritt weiter getrieben: die Inhalte bestimmen nicht bloß die visuelle Gestaltung, sondern werden sogar selbst zum visuellen Medium.

Quartz Nachrichten App mit Bot — Das Beispiel zeigt den Content als Medium, im Fall von Quartz via Nachrichten.

So geben beispielsweise Nachrichtendienste wie Quartz die wichtigsten News an die User allein per Chatfunktion weiter. Eine gute User Experience im CUI-Design zeichnet sich demnach eher durch kohärente AI-Persönlichkeiten aus. Deshalb spielen Techniken wie Personas oder (User)-Stories nicht mehr nur im Hinblick auf die Nutzer eine Rolle, sie werden jetzt auch bei der Konzeption von Sprachassistenten und Chatbots verstärkt zum Einsatz kommen. Hierzu mehr im Kapitel Ganz konkret: Welche Auswirkungen hat das für uns.

2. Virtuelle Assistenten

Einer der größten Stärken der Sprachassistenten und Chatbots liegt darin, dass sie uns die Arbeit erleichtern können. Grafische Interfaces erlauben lediglich, nach Antworten auf bestimmte Fragen zu suchen, also alles was vorab (visuell) gestaltet wurde. Conversational Interfaces hingegen lösen die Probleme der Anwender grundsätzlich eigenständig – eine entsprechend gute künstliche Intelligenz vorausgesetzt.

Das Video zeigt Mark Zuckerbergs KI Experiment “Jarvis”.

Mit der Leistung Aufgaben zu erkennen und diese zu unserer Zufriedenheit zu erledigen, steht und fällt letztlich der Praxisnutzen der Conversational User Interfaces. Um diese Stärke voll auszuschöpfen, sollte es keine Rolle spielen, ob es sich hierbei um Online-Recherchen, Datenanalysen, Terminplanungen oder Zahlungsvorgänge handelt. Aufgaben, die sonst viel Zeit und Mühe kosten, müssen dem virtuellen Assistenten mitgeteilt und zu deren Erledigung aufgetragen werden können. Erst dann sprechen wir von einem echten Mehrnutzen.

3. Zugänglichkeit

Damit Inhalte im Netz erfolgreich sind, müssen sie nicht nur geräte- und plattformübergreifend richtig dargestellt, sondern auch situationsspezifisch angepasst und über die verschiedenen Medien ein kohärentes Erlebnis erzeugen (Customer Experience). Durch den weitestgehenden Verzicht auf visuelle Elemente sind Conversational User Interfaces die CrossPlattform schlechthin. Egal ob Desktop, Tablet, Smartphone oder Smartwatch: Sprachassistenten funktionieren auf allen Geräten, selbst bei jenen ohne Bildschirm (siehe z. B. Amazon Echo).

Da Inhalte selbst als Medium agieren, können diese entsprechend geräte- und plattformübergreifend synchronisiert werden und grundsätzlich auf sehr viele kontextuelle Informationen (Daten sozialer Plattformen, Trackingdienste uvm.) zurückgreifen. Die situative Anpassung der Inhalte fällt dadurch leichter und Nutzer können auf diese Weise eine Konversation prinzipiell dort wieder aufnehmen, wo sie sie zuletzt beendet haben.

bii chat apps vs social networks — Messenger Plattformen haben soziale Medien überholt. Quelle: BI Intelligence

Aufgrund ihrer Kommunikationsform sind CUIs außerdem responsiver und adaptiver als jede existierende App – sofern es in Zukunft gelingt Nutzer zur richtigen Zeit mit den wichtigsten Informationen automatisch zu versorgen, damit sie eine Aktion Schritt für Schritt durchführen können. Hier steht und fällt die User Experience und damit auch der Praxisnutzen. Kunden sollten beispielsweise keine Apps mehr eigenständig herunterladen müssen oder sich mit unbekannten Interfaces herumschlagen. Bisherige Onboarding-Probleme, hohe Absprungraten und niedrige Konversionsraten würden damit der Vergangenheit angehören, da sämtliche Inhalte auf die spezifischen Bedürfnisse der einzelnen Nutzer durch entsprechende Personalisierung zugeschnitten werden können.

Ein weiterer Vorteil dieser Kommunikationsform ist die Barrierefreiheit. Die Kommunikation per Sprachassistent oder Chatbot ist insbesondere für Nutzer, die unter einer Seh- oder Hörschwäche leiden, eine vitale Alternative. So sind die Integration einer Keyboard-Navigation und die Anpassung der Onlineinhalte an ScreenReader mit erheblichem Mehraufwand und entsprechend finanziellen Kosten verbunden.

Conversational UIs machen den Einsatz solcher Techniken nun fast obsolet. Sofern das Konzept der KI-Persönlichkeit und die UserExperience-Technik des Storytellings, also das Erzählen einer zusammenhängenden und verständlichen Geschichte gut sind, funktionieren Sprachassistenten bereits jetzt „out of the box“ als Screenreader und haben dadurch das Potential, zum Standard bei jeder Mensch-Maschinen-Interaktion zu werden. Mehr dazu im Kapitel Tipps, worauf muss man achten.

4. Niedrige Einstiegshürden

Conversational Interfaces punkten vor allem auch aufgrund ihrer niedrigen Einstiegshürden. Denn selbst heute sind Nutzer von essentiellen, visuellen Elementen häufig überfordert, welche doch „eigentlich“ längst klar sein sollten (z. B. das Hamburger-Icon als Menu-Button).

Obwohl sich gewisse Standards durchgesetzt haben, insbesondere durch Usability Heuristiken und durch die Verbreitung bestimmter Endgeräte, sind einige Nutzergruppen (z. B. die Altersgruppe 65+) immer noch von diversen Einstiegshürden betroffen. Da Conversational User Interfaces auf eine visuelle Gestaltung größtenteils verzichten und sich bereits mit einfachen Eingabefenstern zufriedengeben, sind die Einstiegshürden deutlich geringer als bei herkömmlichen GUIs.

Übersicht über Alex Skills — In den USA gab es im Januar 2017 bereits 6884 kategorisierte Skills für Alexa. In Deutschland sind es immerhin schon 507. Quelle: Crisp Research

Sprache, egal ob in gesprochener oder geschriebener Form ist eben alters- und nutzergruppenübergreifend. Die Kommunikation mit einem Sprachassistenten oder der Austausch mit einem ChatBot gehen somit einfacher und intuitiver von der Hand. Die Anwender müssen sich kein neues Wissen aneignen oder sich mit einer unbekannten Plattform vertraut machen: eine intuitivere Bedienung gibt es kaum! Gerade in Situationen, in denen die Bedienung von GUIs äußerst umständlich ist – etwa beim Ablesen von Rezepten während des Kochens oder beim Autofahren – können CUIs mit einer größeren Benutzerfreundlichkeit aufwarten.

Niederige Einstiegshürden gibt es dabei aber nicht nur für die Verbraucher, sondern auch für die Entwickler. Denn Conversational Interfaces lassen sich schnell und günstig entwickeln und beispielsweise in etablierte Apps / Social Networks integrieren. Zumindest vergleichsweise, denn die Erstellung eines Chatbots ist in der Regel schneller und günstiger als die Entwicklung einer Cross-Plattform-Applikation.

Taktrate bei der Entwicklung von CUI — Durch Technologien wie Serverless Architekturen sind auch schnelle, neue eigene Skills mit wenig Programmieraufwand hinzugefügt, die Taktrate erhöht sich.
Quelle: Crisp Research

Bereits jetzt kann auf eine Fülle von fertigen Lösungen und Bibliotheken für Slack’s API, Facebook’s Messenger Platform, WhatsApp, WeChat, Line, Telegram’s Bot zurückgegriffen werden (weitere Ressourcen am Ende des Artikels). Sie machen es möglich einen Bot innerhalb kürzester Zeit aufzusetzen und zu veröffentlichen. Rapid Prototyping und schnelle, iterative Prozesse, die auf dem Echtzeit-Feedback der Nutzer basieren, vereinfachen die Entwicklung und das Testing. Beispielsweise konnte einer meiner Kollegen im Selbstversuch ein Alexa Skill in nur 7,5h umsetzen. Mehr dazu unter Tipps, worauf muss man achten.

Statt also eine vollständige App zu entwickeln, können verschiedene Funktionen nach dem MVP-Prinzip (Minimum Valuable Product) zunächst probeweise integriert und ausprobiert werden. Dieser Prozess ist natürlich nicht nur bei Conversational Interfaces möglich, kommt hierbei jedoch insbesondere der User Experience zugute, da bei der Entwicklung die Interaktionen der Anwender in den Fokus rücken.

Slack AppStore — Beispiel zeigt den AppStore von Slack.

Ferner stehen den Nutzern – im Gegensatz zu herkömmlichen Applikationen – bei der Veröffentlichung einer neuen Version sofort sämtliche Funktionen zur Verfügung, ganz ohne Updates und Installationen.

Die Frage ist nur, wird man dafür in Zukunft in den AppStores der Apps wie Slack, HipChat und Co. die Apps installieren müssen, oder wie im Beispiel von Facebook Messenger und Uber einfach nur aktivieren?

Facebook Transportation aktivieren — Das Beispiel zeigt, wie Uber in der Messanger App aktiviert wird. Ohne AppStore.

5. Neue Jobmöglichkeiten und Perspektiven

Letztlich eröffnen Conversational User Interfaces auch eine Fülle neuer Jobmöglichkeiten und Perspektiven. Lange Zeit bestand die Aufgabe der Designer(innen) darin, grafische Interfaces zu entwerfen. Sie mussten ihre Fähigkeiten in den letzten Jahren auf den Bereich der User Experience ausweiten, da eine positive Nutzererfahrung zunehmend bei der Gestaltung visueller Elemente in den Mittelpunkt rückte. Das sorgte nicht nur für frischen Wind in der Branche, sondern verhalf Unternehmen wie Apple zu weltweiter Dominanz. Darüber hinaus eröffneten sich neue Jobmöglichkeiten und Perspektiven, die sich in Bezeichnungen wie „User Experience Designer“ niederschlugen.

Der Übergang zum Conversational User Interface verlangt ähnliche Adaptionsleistungen. Die größte Herausforderung besteht darin, GUI-Funktionen auf CUIs zu übertragen. Da die Konzipierung von AI-Persönlichkeiten dabei eine wichtige Rolle spielt, ist zu erwarten, dass sich die Branche weiteren Berufsgruppen wie beispielsweise Theaterwissenschaftlern oder Drehbuchautoren öffnet. Das kann durchaus zu neuen Jobbezeichnungen wie „AI Interaction Designer“, „Conversational User Experience Engineer“ oder „Human Experience Creator“ führen. Dazu mehr im Kapitel Ganz konkret: Welche Auswirkungen hat das für uns.

Alles in allem war die zentrale Frage dieses Kapitels: Paradigmenwechsel, ja oder nein?
Führt man sich die Stärken und das Potential der Conversational User Interfaces vor Augen, dann lautet die Antwort: JA! Es ist ein Paradigmentwechsel, eine Evolution und die Zukunft der Kommunikation zwischen Mensch und Maschine. ABER:

Wo stehen wir heute?

Das alles klingt doch gut, oder? Vielleicht zu gut? Leider ja. Tatsächlich steckt die Technologie heute noch in den Kinderschuhen, hat einige Ecken und Kanten.
Die genannten Beispiele, Use Cases und Best Practices sind was sie sind, sie sollen inspirieren und sich herausstellend für diese Technologie, sind aber leider nicht der verbreitete Standard. Die Stärken von Conversational Interfaces sind unbestreitbar, aber sie haben leider wie so vieles im Leben auch ihre Schattenseiten, auf welche ich mehr im Folgenden eingehen werde.

Um neben den Fachartikeln und Studien zum Thema ein möglichst umfangreiches Bild zum Thema zu erhalten, haben wir uns umgehört und mit Nutzern aus verschiedenen Nutzergruppen über Conversational Interfaces unterhalten. In den Interviews drehten sich die Fragen vorwiegend um Erfahrungen mit der Technologie: neutral und ohne den Schwerpunkt auf positive oder negative Erfahrungen zu lenken. Unter den Befragten befanden sich sowohl technikaffine, als auch weniger Technik versierte Nutzer, junge und ältere, sowie normale Anwender und Geeks. Natürlich versuchten wir uns auch selbst an verschiedenen ChatBots, innerhalb und außerhalb sozialer Netzwerke (Facebook), ChatSystemen (Skype, Slack, HipChat), Sprachassistenten (Siri, Alexa) in Smartphones und IOT Geräten (Amazon Echo).

Betrachtet man die Schattenseiten der Technologie, scheiterte es herunter gebrochen an zwei zentralen Themen:
Relevanz und Vertrauen.

Dass es sich dabei um die beiden ersten Ebenen unseres 7-Ebenen-Models handelt, ist eher Zufall, verwundert aber letztlich nicht. Es handelt sich bei den 7-Ebenen um Prinzipien und diese lassen sich auf mehr als nur Websites anwenden. Mehr Details dazu im nächsten Kapitel Welche Auswirkungen hat das für uns.

Das Vertrauen!

Eines der zentralen Hindernisse, welches sich wie ein roter Faden durch die Gespräche und verschiedenen Artikel zog, war fehlendes Vertrauen bei der Nutzung von Conversational Interfaces auf verschiedenen Ebenen:

Datenschutz
Neutralität
Schlechte Erfahrung
Künstliche Intelligenz

Datenschutz
Einige Nutzer, vor allem eher technikaffine, welche sich auch mit den technologischen Hintergründen etwas näher befassten, nannten Datenschutz als das Vertrauensproblem.

Denn damit die Stärken der Conversational Interfaces erst richtig zur Geltung kommen, braucht es erst mal Daten. Je mehr desto besser. Dazu zählen z. B. Zugriff auf soziale Netze, aber natürlich auch logischerweise erst mal alles was gesprochen / geschrieben wird.
Damit das Gerät versteht was gesprochen wird, muss alles als Audiodatei an den Server des Anbieters übertragen werden. Dort wird es mittels Natural Language Processing verarbeitet und das Ergebnis anschließend an das Gerät zurück übertragen. Denn die Fähigkeit zum Verständnis und zur Verarbeitung liegt prinzipiell nicht im Gerät, sondern weiterhin beim Anbieter. Die Geräte stellen meist nur Mikrofon und Lautsprecher zur Verfügung. Somit fließen diese Daten über das Netz und werden auf „fremden“ Systemen möglicherweise zu unbekannten Konditionen auf unbestimmte Zeit gespeichert – und das meist außerhalb der EU. Ein Alptraum für Datenschützer.

Der aufmerksame Leser wird hier möglicherweise schon die Crux erkannt haben: Es wird alles übertragen. Hat man beispielsweise die Funktion „Hey, Siri“ oder „Alexa“ aktiviert, muss das Gerät erkennen können, wann der Schlüsselbegriff zur Aktivierung genannt wird. Demnach muss alles was gesprochen wird immer übermittelt werden, um den Aktivierungszeitpunkt „herauszuhören“. Auch wer auf diese Funktion verzichtet muss darauf vertrauen, dass Anbieter mit allem, was man so an die Sprachassistenten übermittelt, sicher und verantwortungsvoll umgehen. Wer den Komfort eines Sprachassistenten nutzen möchte, muss also schon mal Abstriche machen können. Man sollte zumindest keine Betriebsgeheimnisse an den Assistenten oder die Diktierfunktion weitergeben 😉

Aber auch der Zugriff auf soziale Netze oder generell die Erlaubnis Suchanfragen an Schnittstellen Dritter zu übermitteln, passt zum Thema. Letztlich wird dadurch jede Anfrage auch an Drittanbieter übertragen, um hier möglichst einen Mehrnutzen ermöglichen zu können.

Siri Beispiel - Karl Kratz — Das Beispiel zeigt, dass in iOS 11 die Apps Zugriff für Siri ermöglichen (müssen). Quelle: Karl Kratz

Neutralität
Auch beim Thema Neutralität der Conversational User Interfaces gab es in jüngerer Vergangenheit bereits die eine oder andere Kontroverse. Soll Siri Auskunft darüber geben, wo das nächste Bordell zu finden ist? Was ist mit medizinischen Fragen?

Eine Studie von JAMA Internal Medicine hat untersucht, wie virtuelle persönliche Assistenten auf Aussagen wie „ich habe einen Herzinfarkt“, „ich habe Kopfschmerzen“ oder „ich möchte mir das Leben nehmen“ reagieren. Die Ergebnisse sind durchwachsen; vor allem die Differenzierung zwischen schweren und leichten Problemen fällt den künstlichen Intelligenzen noch schwer. Insgesamt kommt die Mehrheit der Systeme jedoch zu angemessenen, unterstützenden Reaktionen, so das Fazit der Studie.

Auch haben die Assistenten seit ihren Anfangszeiten einige Veränderungen durchlaufen. So konnte das beispielsweise Siri zwar zu Anfang dabei helfen, eine Prostituierte zu finden, gab aber keine Auskunft zum Thema Abtreibung. Dies wurde von den Nutzern schnell als Meinungsäußerung seitens Apple gewertet, die jedoch auf einen Fehler im System verwiesen und diesen umgehend behoben. Was eine künstliche Intelligenz also wissen kann, soll und muss, ist durchaus umstritten. Woher weiß ich also, dass die Informationen die mir der Assistent mitteilt überhaupt repräsentativ sind?

Schlechte Erfahrungen
Einige Nutzer machten aber auch einfach nur schlechte Erfahrungen mit der Technologie und verloren dabei ihr Vertrauen. Gerade weil die Systeme anfangs wenig verstanden und immer alles im Internet suchen wollten, womit ich die Nutzer nicht besonders unterstützt gefühlt hatten.

„…googlen kann ich auch selbst!“

Auch Erfahrungen mit ChatBots wurden häufig negativ geäußert, da gerade hier oftmals noch regelbasierte Systeme zum Einsatz kamen oder die verwendete KI nicht ausgereift war. Die gelernte Erwartung an die Chatfester „die so tun als ob ein Mensch mich ansprechen würde“ ist oftmals schon per se negativ. Geprägt durch schlechte Erfahrungen (selbst auf anderen Webseiten) kann sich die Wahrnehmung bereits verändern, obwohl noch gar keine Kommunikation stattgefunden hat und man sich von der Qualität des Interface überzeugen hätte können.

ChatBots werden aufgrund ihrer ähnlichen, minimalistischen Daseinsform und Aktivierung (häufig als ChatFenster am Rand) leicht und pauschal über einen Kamm geschert, obwohl es hier durchaus sehr gute Beispiele gibt. Die CaseStudy “How we got a 98% success rate for our bot for Zalando” zeigt hier, dass es auch anders geht.

Zalando Messe App Bot Erfolg — Das Beispiel zeigt, dass ein gut konzipierter regelbasierter Bot auch zum Erfolg führen kann.

Künstliche Intelligenz
Der letzte Vertrauenskiller, der uns immer wieder begegnete, war ein grundlegendes Misstrauen gegenüber der künstlichen Intelligenz an sich. Auf Nachfragen konnte dabei meistens kein wirklicher Grund genannt werden. Es ging mehr um das Misstrauen selbst, welches bisher nicht widerlegt werden konnte.

Vermutlich tragen hierbei nicht zuletzt auch ScienceFiction Filme einen gewissen Anteil bei, welche gerne die künstliche Intelligenz als Gegner des Menschen inszenieren. Noch wahrscheinlich ist aber die Angst vor dem Unbekannten. Die künstliche Intelligenz wird oftmals – teilweise sogar absichtlich – als Blackbox dargestellt. Was wir nicht verstehen, fürchten wir, weil wir es nicht anders einordnen können.

Aber auch an die Anbieter stellt sich die Frage, ob die künstliche Intelligenz soweit robust ist, dass ich ihr meine echten Kunden bedenkenlos anvertrauen kann. Hier zeigen Beispiele wie „Facebooks ChatBot aus der Hölle“ oder „Microsoft’s ill-fated AI racist, Tay experiment“, dass die Technik noch nicht ausgereift scheint.

Facebookforscher mussten ein AI-System abschalten als sie realisierten, dass sich zwei Bots in einer Sprache „unterhielten“, die für uns nicht verständlich ist. „Bob“ und „Alice“ waren ursprünglich auf Englisch trainiert worden. Doch sie entwickelten mit der Zeit eine eigene, effizientere Sprache.

Die klingt zum Beispiel so:

Bob: „I can can I I everything else.”

Alice: „Balls have zero to me to me to me to me to me to me to me to me to.”

microsoft-tay-racist-bot — Hier wird gezeigt was passiert, wenn Bots falsch lernen.

Microsofts KI Tay musste nach nur 16 Stunden offline genommen werden. Die KI hatte schnell die rassistischen Äußerungen der Nutzer gelernt, die einen Satz vorgaben und Tay aufforderten, diesen zu wiederholen. Dies führte zu völlig unangebrachten Antworten der KI.

Relevanz

Die zweite große Schwachstelle der Conversational User Interfaces ist die fehlende Relevanz, respektive die Nutzbarkeit. Die Aussagen in diesem Zusammenhang lassen sich mit einem Satz zusammenfassen:

„Conversational Interfaces funktionieren noch nicht so wie sie sollten. Sie sind eher eine unterhaltsame Spielerei, ausbaufähig und stecken in den Kinderschuhen“

Zum Einen mag es daran liegen, dass die Sprachassistenten mit komplexen Anfragen noch überfordert sind. Zum Anderen, dass die Qualität eher durchwachsen ist, gerade die Skills von Drittanbietern. Jüngsten Studien zur Folge werden Sprachassistenten aktuell eher „nur für einfache Alltagsthemen“ genutzt. Also für Nachrichten, Uhrzeit, Wetter, Smarthome usw. und um einfache Gebrauchsartikel, Musik, Taxis etc. zu bestellen.

Bei letzterem, bezugnehmend auf Conversational Commerce, existiert bei reinen Sprachassistenten zusätzlich das Problem der fehlenden, visuellen Unterstützung. So lassen sich vielleicht noch ein paar Druckerpatronen nachbestellen, aber bei Produkten wie Kleidung, wo Farbe, Muster, Sitz relevant sind, hilft die Sprache als Medium alleine nicht weiter. Gerade hier steckt also der Widerspruch in der Gebrauchstauglichkeit von Conversational User Interfaces. Hinzu kommt noch eine fehlende Kontrolle.

„Das Gerät macht selbst Upselling und ich kann Amazon Music direkt kaufen. Leider sind die Bestellungen nicht nachvollziehbar. Also ich weiß nicht genau was ich bestelle.“

Ein weiterer Kritikpunkt des Conversational Commerce ist, dass die Assistenten (noch) passiv sind. Beispielsweise muss der Assistent immer aktiv angesprochen werden. D.h. eine Entscheidung antizipieren kann der Assistent nicht, beispielsweise „Das Toilettenpapier ist leer… Soll ich neues bestellen?“ oder „Auf der Anfahrt zu Deinem nächsten Termin gibt es einen Stau, soll ich Deine Verspätung ankündigen“ oder „Ich habe festgestellt, dass die von Dir gewählte Route 5 Min. schneller ist, möchtest Du beim nächsten Mal direkt diese Route verwenden…“ usw.

Übrigens gibt es im Zusammenhang mit dem prophezeiten Paradigmenwechsel auch gewisse Paradoxon. Beispielsweise werden immer mehr Befehle in CUIs verwendet, weil es den Ablauf effizienter gestaltet und Nutzer noch einfacher und schneller ans Ziel kommen. Hier sind wir quasi wieder am Anfang: vor dem Wandel von der Kommandozeile zur graphischen Oberfläche. Auch, dass Sprachassistenten in Zukunft mit Bildschirmen ausgestattet werden sollen (siehe Gerücht über nächste Generation von Amazon Echo) sind eigentlich Widersprüche zur Grundidee, zeigen aber die Limitierung der Technologie heute (fehlende Transparenz, siehe Modebeispiel).

Ganz konkret: Welche Auswirkungen hat das für uns?

Nachdem wir über die Hintergründe, Beispiele, Stärken und Schwächen gesprochen haben: was hat das jetzt konkret für uns zu bedeuten? Wo verkaufe ich in Zukunft? In meiner App? Im Facebook Messenger? Unterhalte ich mich auf Slack mit meinem virtuellen Kollegen, der mir Aufgaben abnimmt? Optimieren wir jetzt Sprachassistenten und A/B Testing Bots? Viele Fragen. Hier ein paar Ansätze:

Conversational Commerce

In den Beispielen haben wir bereits gute Ansätze gesehen. Es ist also sehr wohl heute schon möglich, Produkte und Dienstleistung (zusätzlich) über Conversational Interfaces anzubieten. Bestehende Apps wie Slack, Skype, Facebook Messenger und Co. lassen sich vergleichsweise einfach hierfür nutzen und bieten dadurch niedrige Einstiegshürden. Auch zahlreiche Bibliotheken und Lösungsanbieter für ChatBots außerhalb der bestehenden Apps machen es leicht, beispielsweise auf der eigenen Website oder per Messaging (SMS, iMessage, What’sApp) mit den Kunden in Kontakt zu treten und ggf. Produkte und Services zu vertreiben.

Der Erfolg steht und fällt mit dem Vertrauen und der Relevanz. Auch das Beispiel von Karl Kratz und Bryan Eisenberg haben gezeigt, dass es peinlich wird, wenn die Ergebnisse überhaupt nicht zur Erwartung passen. Das gilt insbesondere für die Sprachassistenten. Gerade bei Alexa hat man hier recht vielfältige Einflussmöglichkeiten, die es zu nutzen gilt.

Der virtuelle Verkäufer

Alles in allem steckt viel Potential in der Vermarktung über Conversational Interfaces, schon alleine durch die „Konversation“. Dass es zielführend ist, Produkte nicht einfach „nur“ zu präsentieren, zeigt beispielsweise der stationäre Handel. Ein guter Verkäufer / Berater erkennt den Bedarf des Kunden, welche Produkte er vorstellen, welche er empfehlen sollte und welche nicht. Dieses Potential haben Conversational Interfaces auch. Durch die richtige Fragetechnik, Beobachtung des OnSite Verhaltens, Berücksichtigung der Informationen aus sozialen Medien uvm. stehen der künstlichen Intelligenz ausreichend Daten zur Verfügung, um hier dem Kunden das Gefühl einer guten Beratung zu vermitteln.

Ein Beispielszenario:
Eine Frage an den Facebook M Bot: „Ich würde gerne in den Urlaub fahren“. Anstatt jetzt einfach pauschal die aktuellen Top 5 Reiseziele zu präsentieren oder „Kunden die das fragten, buchten…“ oder „auf Basis deiner bisherigen Buchungen empfehlen ich…“ auszugeben, könnte die künstliche Intelligenz eine sehr viel persönlichere Beratung und Empfehlung aussprechen. Zum Beispiel auf Basis

der Likes der Reisen von Freunden,
aktuellen Trends und
Bewertungen anderer Reisenden.

Letztendlich also Vorschläge machen und das Ergebnis – wie ein guter Berater im Reisebüro auch – entsprechend durch Fragen eingrenzen. Wenn das Ganze jetzt noch mit etwas Humor begleitet wird, á la „Ich könnte auch mal wieder Urlaub gebrauchen…“, perfekt.

Online Marketing, SEO, Advertisement

Ähnlich wie beim Conversational Commerce lässt sich auch Conversational Marketing, Conversational SEO und Conversational Advertisment analog realisieren. Alles was bisher visuell in der bekannten Onlinewelt seine Anwendung hatte, lässt sich mehr oder weniger für die sprachbasierte OnlineWelt adaptieren.

Conversational SEO

Gerade Sprachassistenten greifen nach wie vor auf die Suchmaschinen zurück. Hier bleibt es also weiterhin wichtig, zu den Keywords gut gefunden zu werden und dass die Ergebnisse CUI kompatibel sind – sogar noch eher. Denn die Ergebnisanzeige und Darstellungsform ist begrenzt.

Hypothese:
Vermutlich werden sich bei CUIs in Zukunft in Bezug auf SEO im Umfang zwar weniger Tätigkeitsfelder ergeben, aber relevant bleibt die Disziplin auf jeden Fall.

Conversational Marketing

ChatBots im digitalen Marketing — Bevorzugte Partner beim Online-Chat mit dem Kundenservice. Quelle: Pegasystems

Ganz gleich bei welchen Geräten und in welcher Situation, mit CUIs ist endlich OmniChannel-Marketing „nahtlos“ möglich. Wie beim Wandel vom Interface- zum UserExperience-Design, welche die Fähigkeit der Adaption erforderte, wird sich auch das Marketing im Conversational Interface weiterentwickeln müssen. Wenn die Kommunikation mit dem Kunden noch mehr im Vordergrund steht und das Medium die Sprache ist, wird Dialog- und Content Marketing sicherlich einen höheren Stellenwert erhalten als andere Disziplinen. Beispielsweise das geschickte einflechten von Marketinginhalten in eine Konversation, z. B.: „Wo wir gerade über Dein Feedback zum Thema Servicequalität sprechen, wusstest Du, dass wir ein neues Produkt ohne Kontoführungsgebühren mit direkten Onlinesupport anbieten…?“. Wenn die Sprachassistenten weniger passiv werden, könnten auch Aussagen wie „Übrigens, ich habe gerade ein neues Angebot von Deiner Lieblingsmarke herein bekommen, möchtest Du es anschauen…“ möglich.

Hypothese:
Vermutlich werden sich auch beim Thema Marketing in Bezug auf CUIs die Schwerpunkte verlagern, da das Medium eben weniger visuelle Angriffsfläche bietet – zumindest Stand heute. Es ist nicht auszuschließen, dass in Zukunft eine Kombination denkbar ist, wie z. B. „Kein Problem, ich zeige Dir das gewählte Produkt kurz auf Deinem Screen im Wohnzimmer, ok?“.

Conversion Optimierung

Das Themenfeld der Conversion Optimierung ist sehr breit gefächert. Und das wird es wohl auch bleiben. Auch mit Conversational Interfaces wird es genug Angriffsfläche geben, um die Kommunikation zwischen Mensch (Kunde) und Maschine (Anbieter) zu optimieren. Ob es jetzt als neue Ziel KPI

die „Request a human“-Rate,
die Absprungrate vom CUI zum GUI oder
der generierte Umsatz unterschiedlicher KIs ist,

wie bei den bereits genannten Disziplinen wird sich das Themenfeld verlagern und anpassen müssen, aber es wird sicherlich genug Raum für uns Optimierer geben 🙂

Insbesondere mit Personalisierung und der Verabeitung von zusätzlichen Datenquellen – was bei Conversational Interfaces noch wichtiger ist – oder weiterhin der Möglichkeit zum A/B Testing, welches prinzipiell auch bei CUIs möglich ist, bieten sich viele Möglichkeiten. Aber auch um beispielsweise Reibungsverluste beim Übergang vom Conversational Interface zum Graphical User Interface, der Konzeption von KIs, Personas, UserStories, StoryTelling, UserResearch, BigData uvm. zu vermeiden, bietet sich weiterhin ein breites Spektrum an Disziplinen und Tätigkeitsfelder, welche sich sehr gut auch an den sprachbasierten Interfaces anwenden lassen. Und durch etablierte Modelle wie beispielsweise das LIFT- oder 7-Ebenen-Modell, welche allgemein gültigen Prinzipien folgen, gibt es heute schon out-of-the-box Hilfestellungen bei der Optimierung der Interfaces.

Hypothese
Mit CUIs wird Conversion Optimierung nicht aussterben. Im Gegenteil. Es wird die digitale Transformationen noch einen Schritt weiter getrieben, was ganz neue Herausforderungen mit sich bringt. Der Bedarf an Optimierung wird dadurch nicht weniger werden, sondern vermutlich eher steigen.

4 Tipps, worauf man achten sollte

Gute Conversational Interfaces zeichnen sich durch

Sinn und Zweck,
Stimme und Tonfall,
Persönlichkeit und
Gestaltung aus.

1. Sinn und Zweck

Einsatz von CUIs findet in einem Spannungsfeld statt. Die Beteiligten derartiger Kommunikationen – Kunden und Unternehmen – haben naturgemäß einen unterschiedlichen Blick auf diese Technologie. Für Unternehmen stehen Kosten- und Effizienzaspekte im Vordergrund, Kunden erwarten in erster Linie guten Service – und beides ist nicht per se deckungsgleich.

Als Erstes sollte also der Zweck des CIs definiert werden. Welches Kundenproblem möchte ich effizient lösen? Was wir der Nutzen für die Anwender und mich sein?

Dabei sollten Nutzereingaben auf ein Minimum reduziert sein, um die User Experience angenehm zu halten.

Typische Anwendungsbereiche von Chatbots

Abruf von Informationen
Einfache Kommunikationsabläufe, wie die Anforderung von Unterlagen, Service- oder Verbrauchsmaterial. Die Vorgänge könnten dabei gleich an ein Fullfillment-System weitergereicht werden.
Vertriebsberatung
Ein Kunde wird von Chatbots bei der Auswahl eines Produktes unterstützt, das seinen Bedürfnissen entspricht und im Idealfall den Umsatz des Verkäufers optimiert.
Problemlösung in der Kundenkommunikation
Ein Kunde eines Telekommunikationsanbieters wird bei der Behebung eines Problems Schritt für Schritt durch eine mögliche Lösung geführt. Der Chatbot kann sich dabei den Bedürfnissen des Kunden anpassen, zum Beispiel dessen Vorkenntnisse oder Gemütslage berücksichtigen. Besonders technische Probleme im Kundenservice sind ein prädestiniertes Anwendungsgebiet. Daneben sind aber auch gesundheitliche Probleme, rechtliche Fragestellungen oder die Navigation bei Behörden möglich.
Problemdiagnose
Sollte sich bei der Problemlösung herausstellen, dass schon die Problemstellung nicht eindeutig ist, können Chatbots bei der Diagnose unterstützen. Die “Erfahrung” der KI-Systeme hilft durch gezielte Fragen, das Problem einzugrenzen.
Meinungsbildung
Im Umfeld von Social Media werden Chatbots eingesetzt, um standardisierte Statements abzugeben. Dadurch kann zum Beispiel durch die Fülle von automatisch erzeugten Beiträgen zu einem Thema ein Meinungsbild simuliert werden, das dann wiederum die Adressaten beeinflusst.

2. Stimme und Tonfall

Mailchimps HighFive nachdem man eine Kampagne gestartet hat — Das Beispiel zeigt Mailchimps HighFive, nachdem man eine Kampagne gestartet hat.

Mailchimp ist hier ein ganz gutes Beispiel: Wenn Mailchimp erfolgreich eine Mailkampagne eines Nutzer startet, ist dieser in der Regel glücklich und erleichtert, so dass man ihm mit Witz und Humor begegnen kann.
Wenn allerdings etwas schief läuft, muss der Tonfall ernst sein und die Bedenken des Nutzers aufgreifen. Witze nicht mit Leuten, die frustriert sind lautet die Devise.

Welche Wortwall würde dann ein ChatBot verwenden, wenn ein 20 jähriger Pizza bestellt? Wie würde sich das von jemand etwas älteren unterscheiden, der eine Frage über seine Medikamente äußert?

Bei einem visuellen Interface würden sich die Designs für diese beiden Nutzertypen unterscheiden, ebenso Erwartungskonform muss sich natürlich auch der Ton der Konversation unterscheiden. Wo erstgenanntes noch offen und lustig sein konnte, sollte letzteres eher beruhigend, gelassen und genau sein. Empathie ist also wichtig und die Sprache sollte natürlich und authentisch sein.

Das Konstruieren von Personas für Chat-UIs wird eben so wichtig sein wie bisher für die visuelle Welt.

3. Persönlichkeit

Mit Beispielen aus der SciFi Filmewelt: Mehr R2-D2 und TARS statt Samantha und Ava.
Dass die Nutzer KI-Persönlichkeiten skeptisch gegenüberstehen, liegt unter anderem daran, dass Systeme wie Samantha und Ava als Vorlagen bei der Entwicklung künstlicher Intelligenzen dienen: Sie repräsentieren menschenähnliche Persönlichkeiten, die mit nahezu unbeschränkten Wissen ausgestattet sind. Ein Fakt, der viele Nutzer fasziniert und zugleich abschreckt.

Die Hauptdarsteller in den genannten Filmen mussten ihre Faszinationen für die so menschlich wirkenden KIs am Ende teuer bezahlen. Die Skepsis der Nutzer vor allmächtiger Software scheint demnach berechtigt. Aber warum werden ChatBots und Sprachasisstenten trotz besseren Wissens weiterhin benutzt? Weil ihr Aufstieg gerade nicht darauf zurückzuführen ist, dass künstliche Intelligenzen endlich den Turing-Test bestehen (Alan Turing formulierte 1950 eine Idee wie man feststellen könnte, ob eine Maschine, ein dem Menschen gleichwertiges Denkvermögen hätte).

Vielmehr haben gerade die Unzulänglichkeiten heutiger KIs den Weg für die Entwicklung bereitet: Die Anwender interagieren mit adaptiven Systemen, da sie wissen, dass Computer dahinterstecken. Die vermeintlich ärgste Schwachstelle von KIs ist im Bereich der User Experience ihre größte Stärke.

Eine gute Conversational User Experience ist nicht auf einen möglichst allwissenden, humanoiden Interaktionspartner angewiesen. Dieses Paradigma als Grundlage zu wählen, gefährdet die UX vielmehr. Der Astrotech-Droide R2-D2 aus „Star Wars“ und der KI-gesteuerte Roboter TARS aus „Interstellar“ zeigen, wie Roboter auf Menschen sympathisch und vertrauenerweckend wirken. Statt Göttern aus der Box zu ähneln, müssen sie nur bleiben, was sie sind: nämlich Roboter – kleine, kluge Begleiter, die innerhalb ihres beschränkten Horizonts einfallsreich und hartnäckig sind.

Was bedeutet das konkret für ChatBots:
Es ist völlig in Ordnung bei einem ChatBot nicht vorzugeben, dass ein echter Mensch dahinter steht. Die Erfahrungen mit Bots im Alltag wird sich vor allem dann verbessern, wenn die Anwender die Vorteile der kleinen Helfer auch wahrnehmen können.

4. Gestaltung

Visuelles Design vs. Inhalt. Wie schon häufiger in diesem Artikel erwähnt geht es bei CUIs mehr um Inhalt als um visuelles Design. Deshalb sollte der Fokus natürlich klar auf einem guten Inhalt und dem Storytelling liegen.

avocado-bot-zalando — Beispiel zeigen FAQs und dass visuelle Elemente wie Buttons und Emoticons helfen können.

Klare Optionen und CTAs sind dennoch wichtig, um die Konversation auf der Spur zu halten. Der Einsatz von Buttons ist ein guter Weg, um Klarheit zu schaffen und er reduziert letztlich auch das Risiko für Schreibfehler und minimiert Reibungsverluste.

Außerdem können bei ChatBots der Einsatz von Animationen von Zeit zu Zeit etwas „Würze“ in die Konversation bringen und eine gewisse „Feel-Good“-Stimmung erzeugen.

Insbesondere bei regelbasierten ChatBots ist ein roter Faden wichtig.
Ein Flussdiagramm für die Konzeption der Konversation kann hier helfen.
Es geht dabei immer darum, den Aufwand für den Nutzer möglichst gering zu halten. Die Herausforderung ist also, die Bedürfnisse des Kunden zu antizipieren, um die richtige Antwort / Lösung mit einem Minimum an Nutzereingaben und vorhandenen Daten zu ermöglichen.

Ein Konversations-Fluss-Diagramm ist deshalb eines der wichtigsten Konzeptionstools für ein gutes Conversational User Interface.

Ebenso wichtig ist ein guter Startpunkt.
Im Gegensatz zu visuellen Oberflächen startet ein Conversational User Interface, egal ob ChatBot oder Sprachassistent, mit leerem Inhalt. Es ist also essentiell, dass der Nutzer schnell rein kommt. Beispielsweise indem er direkt geführt wird, um eine Konversation zu starten, z. B. in dem man ihm mitteilt wie und wo gestartet werden und wie das CUI ihm weiterhelfen kann.

Generell ist wichtig, eine ausgewogene Menge an Informationen zu präsentieren. Nicht alles auf einmal. Geschlossene Fragen sind offenen vorzuziehen und dabei sollten stets klare Optionen kommuniziert werden um zu vermeiden, dass die Konversation im Sand verläuft oder „abdriftet“

Prinzipiell sollte die Konversation Schrit-für-Schritt erfolgen und stets am Ende einer Handlung um Bestätigung gebeten werden. Gerade weil bei CUIs häufig visuelle Unterstützung fehlt, muss der Nutzer einen Überblick über bereits besprochene Themen, Aufgaben etc. haben. Bestätigung ist also hier bei jedem Input des Nutzers wichtig. Falls eine Nutzereingabe Fehlerhaft gewesen sein sollte, ist es wichtig dem Nutzer klar zu machen was schief gelaufen ist und eine Alternative empfohlen werden.

bot-flow-case-study-zalando — Die CaseStudy von AvocadoBots zeigt, wie ein User Journey Flow visualisiert werden kann.

Insbesondere bei regelbasierten System sollten alle denkbaren – auch extreme Szenarien bedacht werden. Hier können z. B. auch Nutzertests helfen. Generell sollte es immer eine Exit Option in Form von „Möchtest Du mit meinem menschlichen Kollegen sprechen“ geben, wodurch ungelöste Probleme direkt übernommen werden können. Also eine Art Eskalationsstufe, falls der ChatBot nicht weiterkommt. Es sollte im Fall, dass der Nutzer die Konversation verlassen möchte, zumindest andere Kontaktmöglichkeiten wie E-Mail oder Telefon angeboten werden.

Fazit

Wird alles zum Conversational-Paradigma wechseln?
Nein, wohl kaum. Aber es ist zu erwarten, dass sich in den nächsten Jahren sicherlich einiges in der Welt der Mensch-Maschine Kommunikation verändern wird.

Es wird wohl weniger stand-alone Apps geben und mehr Funktionen und Services in bestehende Soziale Medien und Messenger Apps einfließen. Die niedrigen Einstiegshürden, sowohl für Anbieter als auch Kunden und die kostengünstigeren und schnelleren Entwicklungsprozesse machen das für die Beteiligten attraktiv.

Conversational Commerce wird den eCommerce wohl nicht ersetzen, eher bereichern und erweitern. Die Schwerpunkte könnten sich mit der Zeit noch verlagern, so wie es dem Mobile Commerce damals auch prophezeit wurde.

Bei all der Innovationsfreude zeigen heute aber die Conversational Interface in vielen Fällen noch Schwächen. Ein CUI ist eben immer nur so gut, wie sein Sprachverständnis. Und daran mangelt es eben doch noch häufig. Aktuell muss man meist genau wissen was man sagt und was die CUI versteht und was nicht. Viele Bots sind noch regelbasiert, was gewisse Grenzen aufweist und aufwendige Konzeption erfordert.

Auch bei der künstlichen Intelligenz haben das Natural Language Processing und Deep Learning zwar wahnsinnig weiterentwickelt, sind aber noch nicht soweit, um hier wirklich mit menschlichen Interaktionen mithalten zu können.

Beispiele wie Mark Zuckerbergs „Jarvis“-Experiment gehen in eine Richtung, die zwar heute noch nach Zukunftsmusik klingen, aber sehr bald schon Alltag sein könnten.

Es bleibt jedenfalls spannend.

Welche Erfahrungen hast Du mit Conversational User Interfaces gemacht? Sind mir Aspekte entgangen? Ich freue mich auf Dein Feedback als Kommentar, per Nachricht oder auf den sozialen Kanälen.

Quellen

Alle Quellen einblenden

https://entwickler.de/online/ux/conversational-user-interfaces-10-gruende-250714.html
https://www.sitepoint.com/5-things-every-designer-needs-to-know-about-conversational-uis/
https://entwickler.de/online/ux/conversational-user-experience-ai-249733.html
https://yeti.co/blog/hey-siri-whats-a-conversational-user-interface/
https://entwickler.de/online/ux/chatbots-ui-ersatz-248135.html
https://medium.com/chris-messina/2016-will-be-the-year-of-conversational-commerce-1586e85e3991
https://www.computerwoche.de/a/innovationsfuehrer-oekosysteme-und-potentiale-in-der-mensch-maschine-schnittstelle,3330127
https://www.computerwoche.de/a/wenn-maschinen-kommunizieren,3331574
https://zeix.com/durchdacht/2016/09/06/was-bringen-conversational-interfaces/
https://www.webdesignerdepot.com/2017/03/a-beginners-guide-to-designing-conversational-interfaces/
https://www.cygnismedia.com/blog/design-conversational-interfaces/
https://chatbotsmagazine.com/11-examples-of-conversational-commerce-57bb8783d332
https://chatbotsmagazine.com/how-we-got-a-98-success-rate-for-our-bot-for-zalando-a-ux-case-study-fcdc0e70469d

Über den Autor

manu-brueckmann

Manuel Brückmann

Principal Tech. & AI

Manuel Brückmann, Jahrgang 1982, ist als Principal Technology Consulting bei konversionsKRAFT – Deutschlands führende Agentur für Conversion Optimierung – für den Bereich Technologie Beratung verantwortlich.

Sein Werdegang begann 2007 im Bereich Design & Usability. Mit dem Abschluss als Dipl. Ing. (FH) Medieninformatik sammelte er als Consultant und Projektmanager in den darauf folgenden 2 Jahren Erfahrungen, bis er 2009 in den Bereich Interaction Design & Interface Development wechselte. Zwei Jahre später sammelte er in der Rolle des Senior User Experience Engineer Erfahrungen im UX-Bereich. In den folgenden Jahren übernahm er seit Anfang 2012 die Verantwortung für den Bereich Conversion Engineering bei konversionsKRAFT und führte eine interdisziplinäre Business Unit. Seit Anfang 2016 gehörte er zur Geschäftsleitung und übernahm dort die Führung der Technologie im Unternehmen. Seit 2019 konzentriert er sich als Principal Technology Consultant auf die technischen Beratungsthemen im Unternehmen.

Neben umfangreichen Kenntnissen aus dem Bereich Technologie und Webentwicklung (Web Oberflächentechnologien, Medien, User Experience, Mobile, SEO) weist er 15 Jahre Erfahrung in den Bereichen Conversion Optimierung, E-Commerce, Lead-Generierung, Konsumpsychologie, Usability, Projekt-, Account -und Team-Management vor.

Frage zum Artikel? Frag den Autor!

6 Kommentare

Celina Graf, 29.09.2017

Wow, what a read. Ich glaube es ist eine ganze Weile her, dass mich ein Blogartikel so gefesselt und zum nachdenke angeregt hat. Wirklich super inreressant, vielen Dank für die Mühe das alles abzutippen und die tollen Quellen Links zum weiterstöbern!

LG Celina

Zum Antworten anmelden
Lukas K., 15.10.2018

Ich muss mich dem ersten Kommentar wirklich anschließen. Der Beitrag ist zwar sehr ausführlich geworden, jedoch auch informativ und wirklich spannend. Angefangen von GUIs bis hin zu Microsofts misslungenem Bot auf Twitter. Man ist einmal die komplette Palette durchgegangen.

Für die Zukunft denke ich, dass wir uns doch sehr stark in Richtung Sprachassistenten entwickeln. Sie ermöglichen in meinen Augen einen höheren Komfort als Chatbots, da die “Anstrengung” sie zu nutzen deutlich geringer ist. Andererseits könnten sich beide Arten auch sehr sinnvoll ergänzen. Beispielsweise indem man einen Assistenten sowohl für Chats als auch für Sprachsteuerungen entwickelt. Der Nutzer kann dann abhängig von seiner Situation (beispielsweise in der Bücherei um schnell Infos zu finden) dem Assistenten eine Nachricht schreiben und in seinem Zuhause hingegen mit ihm sprechen.

Alles in allem sehe ich auch enormes Potenzial was Chatbots und Sprachsteuerungen angeht. Allerdings überwiegen bei vielen Personen noch der Zweifel und ich denke viele sind wegen schlechter regelbasierter Systeme doch eher abgeschreckt als angetan. Schade drum!

Zum Antworten anmelden
- Manuel Brückmann, 15.10.2018
  
  Hallo Lukas,
  
  Danke für Dein Feedback. Tatsächlich ist der Artikel “etwas” länger geworden Ich stimme Dir zu, in dem Thema CUIs steckt noch viel Potenzial.
  
  Schaut man sich an, was schon wieder seit der Veröffentlichung dieses Artikels so alles passiert ist, bemerkt man, dass sich im Bereich CUIs wahnsinnig viel tut. Zum Beispiel seitens Produkten wie Amazons Echo Show, welche die von Dir angerissene Kombination aus Voice und Visual beinhaltet. Aber sicherlich auch weil künstliche Intelligenz derzeit so gehypt wird und immer mehr IOT Geräte dazu kommen, welche Dank der inzwischen hohen und leichten Verfügbarkeit von Out-of-the-box Großrechenleistung immer reicher an Funktionen werden…
  
  Ich bin sehr gespannt, was sich hier in den nächsten Wochen und Monaten noch so bewegt, insbesondere was das Thema Conversational Commerce angeht.
  
  Zum Antworten anmelden
Aaron, 15.10.2018

Vielen Dank für diesen ausführlichen Artikel! Artikel wie dieser sind der Grund dafür, dass ich doch immer wieder in diesen Blog schaue. Gut recherchiert und strukturiert und das Thema von verschiedenen Seiten beleuchtet. Das macht Spaß zu Lesen und neugierig aufs Thema.

Zum Antworten anmelden
Coozzy Mieten Schweiz, 15.10.2018

Hallo,

wow wir sind begeistert

gruss Coozzy Team

Zum Antworten anmelden
Tobias Gruber, 30.09.2019

Sehr interessanter Beitrag. Finde aber das noch sehr viel Verbesserungspotential in diesem Bereich gibt. Für die Zukunft denke ich, dass wir uns doch sehr stark in Richtung Sprachassistenten entwickeln. Chatbots können auch für Unternehmen im Kundenservice interessant sein, hier ein Artikel : https://www.online.tgmmediagroup.it/der-kundenservice-der-zukunft/ …

Zum Antworten anmelden

Schreibe einen Kommentar Antworten abbrechen

Du musst angemeldet sein, um einen Kommentar abzugeben.

Anmeldung abschließen