Multimodale Anwendungen – Sprachautomation auf allen Kommunikationskanälen


13.09.2007

Telefon, Internet und Email sind nur einige unserer aktuellen Hilfsmittel in der täglichenKommunikation mit Kunden, Interessenten und Lieferanten. Das CRM System ist unsere stetsaktuelle Datenquelle, wird aber hauptsächlich zur Verwaltung und Dokumentation derKontakte und Kampagnen genutzt. Wir arbeiten heute ständig auf einer Vielzahl vonKommunikationskanälen und reden immer weniger im direkten persönlichen Gesprächmiteinander. Das Telefon als das Hauptmedium der heutigen Kommunikation, hat durch dieEmail und deren Abwandlungen wie SMS und Instand Messaging, Zuwachs bekommen. Video undweitere Medien stehen in den Startlöchern. Gleiches gilt für die Automation imKundendialog. Denn Selfservice bedeutet heute viel mehr als nur eine Nachricht auf einemAnrufbeantworter zu hinterlassen.

In vielen Fällen macht es daher im Bereich SelfserviceSinn, mehrere Kanäle miteinander zukombinieren, um somit die gewünschten Informationen besser und effektiver transportierenzu können. Es gilt die alte Weisheit, ein Bild sagt mehr als tausend Worte und Bilderkönnen von vielen unserer digitalen Begleiter sehr gut dargestellt werden.

Multimodal – Was ist das?

Werden verschiedene Kommunikationskanäle gemischt, so spricht man von MultimodalenAnwendungen. Die einfachste Art einer solchen Anwendung ist eine Voice-Mail. EineVoice-Mail wird per Sprache auf einem Anrufbeantworter hinterlassen und wird per Email aneinen Empfänger versendet. Hieraus ergeben sich schon einmal zwei unterschiedlicheKommunikationswege, nämlich der Sprachkanal "Telefon" und der Nachrichtenkanal "Email".Ein dritter Kanal kommt hinzu, wenn die Information zeitgleich per SMS an den Empfängerbzw. sein Mobiltelefon versendet wird.

Dieses simple Beispiel zeigt, wie wir heute bereitsMultimodale Anwendungen nutzen. Durch den Mix weiterer Kanäle lassen sich fürunterschiedliche Kundengruppen Informationssysteme erstellen, die, durch die individuelleWahl des Kommunikationskanals, einen sehr hohen Nutzwert haben, da der Kunde selberentscheiden kann, wann und über welchen Weg er Informationen beziehen oder abgeben möchte.

Spracherkennung nutzen

Die Spracherkennung findet seit einigen Jahren immer mehr Beachtung und ermöglichtwunderbare Lösungen, die einem sehr hohen Faktor an Automation erlauben. Der Computerversteht endlich was der Benutzer sagt und kann so Datenbanken in Echtzeit abfragen, umdem Benutzer schnell und effektiv zu dienen. Die Kommunikation a la "Captian Kirk von derEnterprise", der einfach und natürlich sprachlich mit der Maschine redet ist keineIllusion mehr, sondern findet in einer Vielzahl von Fällen Ihre Anwendung.

Seit Jahrengibt es Systeme, die den Kontostand am Telefon ansagen, die Termine der Filme im örtlichenKino per Telefon vorlesen oder auch eine Bahnverbindung am Telefon wiedergeben. Vielinteressanter wird es aber, wenn nun die Kommunikationskanäle gemischt werden, denn solässt sich auch unterschiedlicher Inhalt transportieren. Am Telefon kann nur gesprochenwerden, aber wie bereits erwähnt, sagt ein Bild oder ein Video viel mehr als tausendWorte. Die heutigen Telefone, gerade die aktuellen Mobiltelefone, erlauben mittlerweiledie Nutzung von Video.

So lassen sich Lösungen erdenken, die bei einem Anruf bei derKinohotline einen Ausschnitt aus dem neuen Kinofilm "Harry Potter" sofort auf das Handybringen. Das ist Kundennutzen! Im Nachspann wird automatisch gefragt wie viele Karten aufdie Handynummer zur Abholung hinterlegt werden sollen. Der Kunde kann ganz einfach perSprachdialog agieren. Ein einfacher Satz wie "Reservieren Sie bitte 4 Karte für HarryPotter um 21.00 Uhr" stößt den Bestellprozess an, der natürlich die Bestellung sofort perSMS bestätigt. Diese Lösung ist so noch nicht im Einsatz, aber eine Vielzahl weiterernützlicher Multimodaler Anwendung finden sich heute bereits in Deutschland.

S- und U-Bahn per Sprache abfragen

Der MVV in München hat ein System zur komfortablen Abfrage aller S- und U-Bahnen wie auchBusverbindungen für den Großraum München erstellt, welches auf einfache MultimodaleFunktionen setzt. Das System zeichnet sich durch eine klare und einfache Benutzung aus undeignet sich daher sehr gut als Beispiel. Ein Anruf auf der Festnetzrufnummer (Testrufnummer:089 / 41 42 43 44) ermöglichtdem Benutzer die Angabe seiner Route durch Nennung der Abfahrt- und Zielhaltestelle, wieauch der Uhrzeit. Der geführte Sprachdialog ermöglicht eine gute Dateneingabe und hältOptionen wie die gewünschte Ankunftszeit bereit. Der Clou ist, dass Sie nach Erhalt derInformation am Telefon diese zudem als SMS oder als Fax bekommen können. So haben Siejederzeit die Möglichkeit diese nochmals anzuschauen um zu erkennen, an welchenHaltestellen Sie umsteigen müssen oder ob beim Umsteigen noch Zeit für einen Imbissbleibt. Die Multimodale Nutzung bezieht sich hier auf die einfache Eingabe per Sprache unddie Ausgabe in ganz anderen Kanälen.

Entertainment fast ohne Tasten

Es lassen sich auch ganz andere Applikationen erstellen, die wiederum andere Kommunikationswege nutzen.Das eine Sprachanwendung nicht langweilig sondern eher sehr interaktiv sein kann, dabei sogar eine Verbindung zum Internet bzw. unserem beliebten Browser herstellt, eröffnet völlig neue Horizonte. So hat das Münchner Unternehmen Telenet zu seinem 25-jährigen Firmenjubiläum die Applikation " Oma Anneliese " erstellt. In dieser multimodalen Anwendung verschmelzen das Internet in Form des Kommunikationskanals "Browser" und der Kanal "Telefon mit Spracherkennung" zu einer ansehnlichen Lösung.

Es gilt gemeinsam mit der fiktiven "Oma Anneliese" ein Kreuzworträtsel auszufüllen ohne dabei die Tastatur oder einen Stift zu nutzen. Nur per Stimme füllen sich die Zeilen und Spalten am Bildschirm sichtbar vor einem. Ein Anruf auf der Ortsrufnummer der "Oma Anneliese" stellt per Eingabe einer Nummer die Verbindung zwischen dem Browser und dem Anruf her. Danach geht alles wie von Geisterhand geführt. Der frische Dialog mit der Oma wurde von den VUI-Designern der Telenet erstellt und von den Sounddesignern der Comevis aus Köln vertont.

Die freundliche Oma hat immer wieder motivierende Worte zur Verfügung, damit der Benutzer die richtigen Begriffe im Kreuzworträtsel findet. Findet der Anrufer dann das Lösungswort, so winkt auch noch jeden Monat ein Preisverleih. Die Mischung aus Spracherkennung, frischer Benutzerführung und der Visualisierung der erkannten Worte auf dem Bildschirm zeigen in welche Richtung sich die Lösungen entwickeln werden.

Neue Anwendungen – aber richtig

Die Beispiele geben erste Ideen für den Einsatz von Mulitmodalen Anwendungen in derPraxis. In diesem Markt ist noch viel Potential versteckt, denn die immer weitereVerbreitung der unterschiedlichsten Endgeräte und die Nutzung von Sprachtechnologieerlaubt permanent weitere Möglichkeiten.

Nur ist jeder Anwendungsfall bekanntlichunterschiedlich, basiert auf völlig verschiedenen Datenbanken und verfolgtunterschiedliche Ziele. Je nachdem ob eine Lösung im Bereich der Finanzwirtschaft, demEntertainment oder im Bereich einer Prozesskette in einem Produzierenden Unternehmenentstehen soll, muss ein Ansatz gefunden werden, der dem potentiellen Nutzer wirklichhilft.

Dies fängt bei der passenden Wortwahl an und geht über die richtige grafischeSchnittstelle bis hin zur Auswahl der passenden Endgeräte, die der Nutzer zur Verfügunghat. Allein aus dieser Vielzahl von Voraussetzungen sei darauf hingewiesen, das Sie beieinem solchen Projekt auf Wissen von Experten zurückgreifen sollten. Mittlerweile findensich in Deutschland verschiedene Voice User Interface Designer (kurz VUI-Designer), diemit einem untechnischen Ansatz an den Start gehen und Unternehmen bei der Erstellung einerAnwendung im linguistischen Bereich helfen.

Wie vor einigen Jahren die Webdesigner neu aufder Bildfläche erschienen sind, so ist es im Fall einer Sprachanwendung der VUI-Designer,der diese komplexe und multimodale Welt versteht und bei allen Überlegungen versuchen sollden Kunden oder Nutzer der Anwendung im Fokus zu halten. Er hat die Aufgabe, zuverhindern, dass der neue Anwendungsfall ein zu technisches Kundenverhinderungssystemwird. Nur wenn der Benutzer Ihre neue Anwendung gern verwendet, wird er es wieder tun undso nachhaltig für eine Auslastung und den Erfolg der Anwendung sorgen.

Standards

Das Multimodale Anwendungen keine technische Spielerei sind, zeigt auch das Interesse desWorld Wide Web Consortiums (W3C), welches Standards zum Austausch von InformationenMultimodaler Anwendungen definiert. EMMA heißt eine Beschreibungssprache die auf XMLbasiert. Diese "Extensible MultiModal Annotation markup language" dient als Grundlage, umalle nur erdenklichen Inhalte multimodal miteinander zu verknüpfen. Die Definition diesesStandards befindet sich in dem Status des "Working Draft" und wird sicher bald finalisiertwerden. Weitere Informationen finden Sie hier .

Fazit

Der richtige Mix in der Selbstbedienung macht den feinen Unterschied. Mit MultimodalenLösungen erreichen Sie den Kunden auf allen erdenklichen Kanälen und können IhreInformation somit optimal transportieren. Im Vorfeld gilt es allerdings genau dienotwendigen Schnittstellen zu untersuchen. Hierbei sollten Sie auf die technischenSchnittstellen wie Datenstrukturen und verwendete Technologie genauso viel Zeitinvestieren, wie in die didaktischen und linguistischen Schnittstellen, die dieInteraktion mit dem Kunden beschreiben.

voice compass 2007

Sie planen eine Sprachanwendung oder eine Multimodale Anwendung und suchen die passendenDienstleister oder Produktanbieter wie auch Empfehlungen aus der Praxis. Detlev Artelt, der Autor diesesArtikels, hat das Standardwerk zu diesem Fachbereich erstellt und beschreibt in dem Buch" voice compass 2007 " in aller Ausführlichkeit die Grundlagen für Sprachanwendungen. Zusammen mit 4 Co-Autoren wird der Anbietermarkt geordnet und das ThemaSprachanwendung entmystifiziert.

Weitere Informationen zum Buch...


Autor

  • Detlev Artelt

    aixvox GmbH

Detlev Artelt ist Geschäftsführer der aixvox GmbH in Aachen und namhafter Autor verschiedener Fachbeiträge und Marktstudien auf dem Gebiet datenbankgestützter Computersprachsysteme in Verbindung mit Spracherkennung und -synthese.



Unsere Experten


alle Experten

Premium Lösungen

Marktübersicht

Premium Services

Dienstleisterübersicht