Teilprojekt 1: Modalitätsspezifische Analysatoren

Multimodalität soll dem Benutzer ermöglichen in der Kommunikation mit Maschinen und technischen Systemen unterschiedliche Eingabeformen zu benutzen. Im Unterschied zu beliebigen Multimedia Systemen geht es dabei nicht darum, unterschiedliche Medien in irgendeiner Form zur Bearbeitung oder Konsumption durch den Benutzer oder zur Präsentation von Ergebnissen zur Verfügung zu stellen. Vielmehr soll der Benutzer die Medien tatsächlich zur Verständigung mit dem Computer benutzen können, also insbesondere zur Mitteilung der Aufgaben, die er vom System erledigt haben möchte. Diese Möglichkeit macht aus einem Medium eine Modalität für die Kommunikation mit dem System.
In SmartKom geht es dabei vor allem um die intuitive Nutzung natürlicher Modalitäten. Als Modalitäten, die aktiv vom Benutzer verwendet werden, kommen in erster Linie Sprache und Gestik in Betracht. Daneben wird die Kommunikation durch eher unbewußt eingesetzte Modalitäten wie Mimik oder sprachliche Emotionalität modifiziert. Darüber hinaus wird die Interaktion auch durch begleitende real-manipulative Aktionen wie das physische Einbringen eines Dokumentes in den Diskurs beeinflußt. Die Intuitivität bei der Benutzung unterschiedlicher Modalitäten entsteht dabei nicht nur durch die Auswahl zwischen Modalitäten, sondern auch wesentlich durch ihre Mischbarkeit.

In multimodalen Systemen besteht eine komplexe Wechselwirkung zwischen den Analysatoren der Einzelmodalitäten und den höheren Verarbeitungsschichten, die die Intentionen des Benutzers aus den Ergebnissen dieser Analysatoren erschließen und in Systemreaktionen umsetzen. Diese Wechselwirkung der Komponenten beruht auf der vom Stand der Interaktion abhängigen Wechselwirkung der Informationselemente, die über die unterschiedlichen Modalitäten kommuniziert werden, aber auch auf den physischen Zusammenhängen der Modalitäten.
Ein Teil der Anstrengungen in Teilprojekt 1 ist daher auf die Entwicklung von Schnittstellen für die Analysatoren gerichtet, die diesen in monomodalen Systemen unbekannten Wechselwirkungen gerecht werden, einen entsprechend komplexen Datenaustausch mit der Interpretation der Eingaben und Interaktionsplanung, aber auch untereinander ermöglichen, und gleichzeitig eine effektive, für praktische Anwendungen ausreichende Effizienz gewährleisten.
Dabei müssen auch durchaus grundsätzliche Fragestellungen bearbeitet werden. Für das Interaktionsmedium Sprache sind Schnittstellen zwischen den Analysatoren für die Spracherkennung und den interpretierenden und dialogverarbeitenden Komponenten durch Vorgängerprojekte erarbeitet worden. Bei Gestik und vor allem bei Mimik und sprachlicher Emotion bedarf das Inventar von Merkmalen, das von den Analysatoren überhaupt erkannt werden soll, einer Klärung und muß im Verlauf des Projektes in enger Kooperation mit den dialogverarbeitenden Arbeitspaketen erarbeitet werden. Diese offenen Fragen geben auch der Datensammlung ein hohes Gewicht.
Durch die in den entsprechenden Teilprojekten definierten anspruchsvollen Anwendungen ergeben sich weiterhin Anforderungen an Zuverlässigkeit, Geschwindigkeit und Erkennungsleistung der Analysatoren. Diese müssen in realen, durch Störsignale betroffenen Umgebungen eine breitbandige Kommunikation ermöglichen. Darüber hinaus sind erhebliche Anforderungen an die statische und dynamische Skalierbarkeit und Adaptierbarkeit der Verarbeitung zu erfüllen.
Weitere Anforderungen ergeben sich daraus, daß die Benutzung der Modalitäten ohne wechselseitige Beeinträchtigung ermöglicht werden muß. D.h. die Nutzung einer Modalität darf die physische und kognitive Aufmerksamkeit nicht in einer Weise beanspruchen, daß intuitive Modalitätskombinationen behindert werden.