Skip to main content Skip to main navigation

Projekt

SmartKom

Multimodale dialogische Mensch-Technik-Interaktion

Multimodale dialogische Mensch-Technik-Interaktion

  • Laufzeit:

Was ist SmartKom?

Der Bedarf an immer intuitiveren und effizienteren Benutzerschnittstellen nimmt ständig zu – insbesondere für Anwender mit begrenzter technischer Praxis oder Menschen mit körperlichen Beeinträchtigungen bzw. in mobilen oder zeitkritischen Situationen. SmartKom ist ein multimodales Dialogsystem, das Sprache, Gestik und Mimik sowohl auf der Eingabeseite als auch auf der Ausgabeseite kombiniert. Das Verstehen von Spontansprache wird hier mit dem videobasierten Erkennen von natürlichen Gesten verknüpft. SmartKom unterstützt das situative Verstehen von ungenauen, mehrdeutigen oder unvollständigen Eingaben, aber auch die Generierung von koordinierten, zusammenhängenden und sich ergänzenden Ausgaben. SmartKom erstellt und verarbeitet explizite Repräsentationen des Benutzermodells, der Domäne, der Aufgabe, des Kontextes und des Mediums selbst. Eines der wissenschaftlichen Ziele von SmartKom ist es, neue Methoden für eine nahtlose Integration und wechselseitige Begriffsklärung von multimodalen Ein- und Ausgaben auf semantischer und pragmatischer Ebene zu entwickeln.

Die Ziele von SmartKom

SmartKom nutzt eines der Hauptmerkmale menschlicher Verständigung: Den koordinierten Gebrauch verschiedener Code-Systeme wie Sprache, Gestik und Mimik in komplexen Kommunikationssituationen. SmartKom verwendet dabei einen multimodalen Ansatz, um einen intuiven Zugang zu wissensintensiven Diensten zu erlauben. SmartKom verbindet drei verschiedene Paradigmen von Benutzerschnittstellen – gesprochene Sprache, grafische Oberflächen und gestische Interaktion ? um echte multimodale Kommunikation zu erreichen. Die natürlichsprachliche Interaktion in SmartKom basiert auf einer sprecherunabhängigen sprachverstehenden Technologie. Für die grafische Benutzerschnittstelle und die Gestenerkennung benutzt SmartKom nicht die herkömmliche WIMP-Schnittstelle (windows, icons, menus, pointer), sondern unterstützt den natürlichen Einsatz von Gestik. Das SmartKom Interaktions-Modell bricht radikal mit der klassischen Desktop-Metapher. Das multimodale System basiert auf dem situierten, aufgabenorientierten Dialog-Paradigma (SDDP): Der Benutzer delegiert eine Aufgabe an einen virtuellen Kommunikationsassistenten, der grafisch dargestellt wird. Bei komplexeren Aufgaben kann diese Delegierung nicht mit einem einfachen Command-and-Control-Ansatz bewältigt werden. In einem gemeinschaftlichen Dialog zwischen Mensch und System, das durch einen Life-like Character repräsentiert wird, werden Spezifikationen der gestellten Aufgabe und mögliche Vorgehensweisen erarbeitet. Im Gegensatz zu aufgabenorientierten Dialogen, in denen der Benutzer die Aufgabenstellung mit Hilfe des Systems bewältigt, delegiert der Benutzer beim SDDP-Ansatz die Aufgabe an den Agenten und hilft diesem – wenn nötig – bei der Ausführung der Aufgabe.

SmartKom in der Praxis

Drei Anwendungsszenarien von SmartKom wurden definiert:

  1. SmartKom-Public ist ein multimodaler Kommunikationskiosk für Flughäfen, Bahnhöfe oder andere öffentliche Plätze, an denen Menschen z.B. nach Touristik-Informationen suchen. Gleichzeitig haben Benutzer breitbandigen Zugriff auf personalisierte Standard-Anwendungen.
  2. SmartKom-Mobile benutzt einen PDA als Ausgabegerät. Dieses kann in Kombination mit einem Autonavigationssystem genutzt oder von einem Fußgänger mitgeführt werden. Zusätzliche Dienste wie Routenplanung und interaktive Stadt-Navigation können mit Hilfe von GPS genutzt werden.
  3. SmartKom-Home ist ein multimodales Portal für Informationen und Services. Es stellt einen elektronischen TV-Programmführer (EPG) zur Verfügung, es steuert Geräte der Unterhaltungselektronik wie z.B. Videorecorder und ermöglicht die Nutzung von Standardanwendungen wie Telefonie und E-mail. Das System wird zu Hause mit Hilfe eines portablen Webpads gesteuert. Der Anwender kann SmartKom-Home sowohl arbeitsintensiv, mit Hilfe koordinierter Sprach-Gestik-Interaktion, als auch in einer entspannten Freizeitsituation nur durch Sprache bedienen.

Die Schlüssel-Merkmale des Demonstrators

Der voll funktionsfähige SmartKom-Demonstrator, der im Juni 2003 vorgestellt wurde, erlaubt dem Benutzer die Verwendung von Spontansprache und Zeigegesten. SmartKom reagiert mit koordinierter Ausgabe von Sprache, Gestik, Grafik und Mimik des Life-like Characters. Über dem Demonstrator ist ein LCD-Projektor und eine Gestenerkennungseinheit (SIVIT) angebracht. Grafische Ausgaben werden auf eine horizontal angebrachte Fläche projiziert. Der Benutzer steht vor diesem virtuellen Touch- Screen. Er kann seine Hände und Finger nutzen, um auf dargestellte Objekte zu zeigen. Es ist nicht nötig, die Projektionsfläche zu berühren, da die Gestenerkennungseinheit die Position der Hände und Finger des Benutzers erfasst. Die Stimmung des Benutzers wird durch die Interpretation des Gesichtsausdrucks sowie der Satzmelodie eingeschätzt. Der Demonstrator verfügt über neun Beispielanwendungen mit annähernd 50 Funktionen.

Die Arbeitsweise von SmartKom

SmartKom basiert auf einer multi-blackboard Architektur mit parallel verarbeitenden Threads, die ein hohes Maß an Flexibilität erlauben. Das System läuft auf drei Doppelprozessor Pentium-Rechnern unter Windows 2000 oder Linux. Alle Module wie z.B. die Medienfusion und das Mediendesign werden als separate Prozesse auf verteilten Rechnern realisiert. Die Module sind in C, C++, Java oder Prolog implementiert. Eine Schlüsselentscheidung war die Entwicklung von M3L, einer xmlbasierten Markup-Language für die Repräsentation des Informationsaustausches zwischen den verschiedenen Verarbeitungsmodulen von SmartKom. So sind z.B. der Worthypothesengraph, der Gestenhypothesengraph, die Ergebnisse der Medienfusion, der Präsentationsplan und die Diskursmodellierung in M3L repräsentiert. M3L wurde entwickelt für die Repräsentation und den Austausch komplexer, multimodaler Inhalte, Informationen über die Segmentierung und Synchronisation sowie Informationen über die Zuverlässigkeit der Verarbeitungsresultate. Für jeden Kommunikationsknoten wurden XML-Schemata definiert, die ein automatisches Überprüfen der Daten während des Austausches ermöglichen. Die Komponente zur Medienfusion kombiniert die Ausgabe der Sprach- und Gestenanalyse. Das Resultat wird an die Intentionserkennung übergeben und mit Diskurs- und Weltwissen angereichert. Der Aktionsplaner initiiert eine der erkannten Intention des Benutzers entsprechende Reaktion. Falls notwendig werden über das Interface der Funktionsmodellierung externe Dienste kontaktiert. Schließlich wird der Präsentationsplaner aufgerufen, um die adäquaten Ausgabemodalitäten auszuwählen. Der Präsentationsplaner aktiviert den Sprachgenerator und die Sprachsynthese. Die Interaktion des Benutzers mit dem Life-like Character des situierten, aufgabenorientierten Dialog-Paradigma (SDDP) erfordert die Synchronisation der Ausgabemodalitäten, um Kohärenz und natürliche Kommunikation sicherzustellen. Ein Beispiel hierfür ist die Synchronisation der Lippenbewegung mit dem Sprachsignal.

Herausragende Merkmale von SmartKom

  • Nahtlose Integration und wechselseitige Disambiguierung von multimodalen Ein- und Ausgaben auf semantischer und pragmatischer Ebene
  • Situiertes Verstehen von möglicherweise ungenauen, mehrdeutigen oder unvollständigen Eingaben
  • Kontextsensitive Interpretation des Dialogfortschritts auf Basis dynamischer Diskurs- und Kontextmodelle
  • Adaptive Generierung von koordinierten, zusammenhängenden und sich ergänzenden multimodalen Präsentationen
  • Halb- oder vollautomatische Vervollständigung von Benutzeranfragen durch die Integration von Informationsdiensten
  • Intuitive Personifizierung des Systems durch einen Präsentationsagenten

Ergebnisse von SmartKom

Wissenschaftliche Resultate:

  • Publikationen: 255
  • abgeschlossene Diplomarbeiten, Promotionen und Habilitationen: 66
  • Berufungen an Hochschulen: 6

Wirtschaftliche Resultate:

  • 52 Patentanmeldungen
  • 29 Spin-off-Produkte
  • 6 Spin-off-Unternehmen

Smartkom ist damit das erfolgreichste aller seit 1998 gestarteten 29 Leitprojekte des BMBF. Dr. Bernd Reuse, Referatsleiter Softwaresysteme Bundesministerium für Bildung und Forschung

Partner

  • DFKI GmbH (Konsortialleitung)
  • DaimlerChrysler AG
  • European Media Laboratory GmbH
  • Friedrich-Alexander-Universität Erlangen-Nürnberg
  • International Computer Science Institute
  • Ludwig-Maximilians-Universität München
  • MediaInterface Dresden GmbH
  • Philips Speech Processing
  • Siemens AG
  • Sony International (Europe) GmbH
  • Sympalog Voice Solutions GmbH
  • Universität Stuttgart

Fördergeber

BMBF - Bundesministerium für Bildung und Forschung

BMBF - Bundesministerium für Bildung und Forschung

Projektbilder

Publikationen zum Projekt

Jameel Malik; Didier Stricker; Sk Aziz Ali; Vladislav Golyanik; Soshi Shimada; Ahmed Elhayek; Christian Theobalt

In: IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI), Vol. 1, Pages 1-13, IEEE, 11/2021.

Zur Publikation

Tewodros Amberbir Habtegebrial; Varun Jampani; Orazio Gallo; Didier Stricker

In: Advances in Neural Information Processing Systems. Neural Information Processing Systems (NeurIPS-2020), December 6-12, Vancouver, Canada, Pages 4745-4755, No. 33, Curran Associates, Inc. 12/2020.

Zur Publikation

Norbert Reithinger; Jan Alexandersson; Tilman Becker; Anselm Blocher; Ralf Engel; Markus Löckelt; Jochen Müller; Norbert Pfleger; Peter Poller; Michael Streit; Valentin Tschernomas

In: Proceedings of Fifth International Conference on Multimodal Interfaces. International Conference on Multimodal Interfaces (ICMI-2003), Fifth, November 5-7, Vancouver, British Columbia, Canada, ACM, 11/2003.

Zur Publikation