May 12, 2022

Was ist ein Sprachassistent?

Bei einem Sprachassistenten handelt es sich um ein technisches Dialogsystem, welches die natürliche Sprache als Kommunikationsmedium nutzt.

Bei einem Sprachassistenten handelt es sich um ein technisches Dialogsystem, welches die natürliche Sprache als Kommunikationsmedium nutzt. Im Gegensatz zu einem textbasierten Chatbot findet die Unterhaltung mit einem Sprachassistenten über das gesprochene Wort statt. Sprachassistent führen auf Befehl Aktionen und Handlungen durch. Die bekanntesten Assistenten heißen Siri, Alexa, Google Assistant. Beliebt ist die Nutzung insbesondere auf Smartphones sowie auf Smart Home Geräten.

Übrigens: Falls Sie sich nun fragen, wie ein Sprachassistent funktioniert: Ein Sprachassistenten ist vergleichbar mit einem Chatbot. In einen früheren Artikel haben wir die Funktionsweise von Chatbots genauer beleuchtet: Wie funktioniert ein Chatbot?

Wo werden Sprachassistenten eingesetzt?

Sprachassistenten werden immer dort sinnvoll eingesetzt, wo die natürliche Sprache einen Unterschied macht. Das heißt: Es macht keinen Sinn einen Sprachassistenten in einem Großraumbüro einzusetzen, wenn viele Leute dort in Ruhe arbeiten möchten. Wenn nun aber die Umgebung andere Möglichkeiten der Interaktion einschränkt, spielen Sprachassistenten ihre große Stärke aus. Ein gutes Bespiel hierfür ist die Autofahrt: Der Fahrer konzentriert sich normalerweise bestmöglich auf die Straße. Ein wildes Herumklicken auf Armaturenbrettern dient nicht diesem Zweck. Ein einfacher Sprachbefehl „Hey Mercedes, mach das Licht an.“ oder „Hey Mercedes, ich möchte Spotify hören.“ stört deutlich weniger beim Fokus auf die Straße.

Daneben befinden sich viele Sprachassistenten im häuslichen Umfeld wieder. Google Home sowie Alexa sind die bekanntesten Vertreter. Dort vereinfachen Assistenten den Umgang mit dem Radio, dem Fernseher, dem Licht und vielen weiteren Haushaltsgeräten. So kann man mit Alexa beispielsweise auch die Gartenbewässerung starten oder den Fernseher einschalten. Auch komplexere Anfragen wie z.B. das Vorlesen von Rezepten und die Beantwortung von Fragen für welche man ansonsten Wikipedia aufschlagen müsste, sind mit diesen Helfern ein Kinderspiel.

Im unternehmerischen Umfeld helfen Sprachassistenten am Telefon im Kundenservice. Zum Vorqualifizieren von Anfragen und um den richtigen Ansprechpartner zu finden, begrüßen Sprachassistenten bereits bei vielen namhaften Unternehmen die Kundschaft.

Was sind die Herausforderungen beim Einsatz von Sprachassistenten?

Die Herausforderungen beim Einsatz von Sprachassistenten lassen sich in 3 verschiedene Kategorien gliedern:

  • Dialog Design
  • Technische Herausforderungen
  • Ethische Herausforderungen

Beim Dialog Design handelt es um eine inhaltliche Herausforderung. Es ist wichtig festzulegen, welches Ziel der Sprachassistent verfolgt. Soll er das Licht ein- und ausschalten können oder soll er eher Fragen wie z.B. „Wer ist Barack Obama?“ beantworten. Daraus wird dann abgeleitet, welche Use Cases abgedeckt werden müssen, um das Ziel zu verwirklichen. Jeder Use Case wird dann von sogenannten Dialog Designern gestaltet. Dabei machen Worte den Unterschied. Professionelle Dialog Designer erstellt daher oftmals ein Wording Guide, welcher vergleichbar mit einem Style Guide festlegt, wie die Sprache des digitalen Assistenten gestaltet sein soll. So unterscheiden sich Sprachassistenten im Branding.

Neben den reinen inhaltlichen Herausforderungen definieren sich Sprachassistenten auch durch die Technik. Im folgenden Schaubild ist der generelle Aufbau eines Sprachassistenten abgebildet:

Funktionsweise eines Sprachassistenten
Funktionsweise eines Sprachassistenten

Um zu funktionieren, benötigen Sprachassistenten:

  1. Einen Spracherkenner (Speech-to-Text): Ein Spracherkenner transkribiert das gesprochene Wort zu Text. Hier spielt künstliche Intelligenz eine große Rolle.
  2. Einen Spracherzeuger (Text-to-Speech-System): Unter Sprachsynthese versteht man die künstliche Erzeugung der menschlichen Sprechstimme. Ein Spracherzeuger macht genau das und nimmt dabei Text entgegen und wandelt diesen in Sprache bzw. eine Audiodatei um. Auch hier kommen neuronale Netze und damit künstliche Intelligenz zum Einsatz. Dadurch können auch unterschiedliche Sprechstile sowie Sprachen realisiert werden.
  3. Ein Dialogmanagementsystem: Ein Dialogmanagementsystem (DMS) sorgt für den korrekt Ablauf von Dialogen während eines Gesprächs. Sprachassistenten haben meistens einen sog. internen Zustand, der bestimmt an welcher Stelle sich der Dialog gerade befindet. Damit weiß das System wie die Antwort des Nutzers zu verarbeiten ist. Dialogmanagementsysteme sind Gegenstand aktiver Forschung. Im produktiven Einsatz sind Dialogmanagementsysteme oftmals regelbasiert und damit noch nicht mit Hilfe von künstlichen neuronalen Netzen trainiert.
  4. Anbindungen an Schnittstellen: Damit der intelligente Sprachassistent in der Lage ist die Anfrage des Nutzers zu verarbeiten, sind oftmals Schnittstellen in Drittsysteme wie CRM oder SAP nötig.

Daneben gibt es verschiedene ethische Herausforderungen. Insbesondere die Frage der Verantwortung sowie der Schutz von Daten und Privatsphäre ist dabei zu nennen. Wer ist verantwortlich, wenn ein Sprachassistent nicht so funktioniert wie geplant? Was wenn Sprachassistenten wie im Falle von Google Duplex Termine automatisiert vereinbaren können und der Nutzer am Ende nicht zum Friseurtermin erscheint? Wer ist hier verantwortlich? Diese Fragen sind Gegenstand aktueller Forschung.

Lass dir Sally Live und in Action zeigen!

Jetzt unverbindlichen Demo-Call buchen