Interactive generation of effective discourse in situated context : a planning-based approach

Interaktive Generierung von effektivem Diskurs in situiertem Kontext: Ein planungsbasierter Ansatz

  • As our modern-built structures are becoming increasingly complex, carrying out basic tasks such as identifying points or objects of interest in our surroundings can consume considerable time and cognitive resources. In this thesis, we present a computational approach to converting contextual information about a person's physical environment into natural language, with the aim of helping this person identify given task-related entities in their environment. Using efficient methods from automated planning - the field of artificial intelligence concerned with finding courses of action that can achieve a goal -, we generate discourse that interactively guides a hearer through completing their task. Our approach addresses the challenges of controlling, adapting to, and monitoring the situated context. To this end, we develop a natural language generation system that plans how to manipulate the non-linguistic context of a scene in order to make it more favorable for references to task-related objects. This strategy distributes a hearer'sAs our modern-built structures are becoming increasingly complex, carrying out basic tasks such as identifying points or objects of interest in our surroundings can consume considerable time and cognitive resources. In this thesis, we present a computational approach to converting contextual information about a person's physical environment into natural language, with the aim of helping this person identify given task-related entities in their environment. Using efficient methods from automated planning - the field of artificial intelligence concerned with finding courses of action that can achieve a goal -, we generate discourse that interactively guides a hearer through completing their task. Our approach addresses the challenges of controlling, adapting to, and monitoring the situated context. To this end, we develop a natural language generation system that plans how to manipulate the non-linguistic context of a scene in order to make it more favorable for references to task-related objects. This strategy distributes a hearer's cognitive load of interpreting a reference over multiple utterances rather than one long referring expression. Further, to optimize the system's linguistic choices in a given context, we learn how to distinguish speaker behavior according to its helpfulness to hearers in a certain situation, and we model the behavior of human speakers that has been proven helpful. The resulting system combines symbolic with statistical reasoning, and tackles the problem of making non-trivial referential choices in rich context. Finally, we complement our approach with a mechanism for preventing potential misunderstandings after a reference has been generated. Employing remote eye-tracking technology, we monitor the hearer's gaze and find that it provides a reliable index of online referential understanding, even in dynamically changing scenes. We thus present a system that exploits hearer gaze to generate rapid feedback on a per-utterance basis, further enhancing its effectiveness. Though we evaluate our approach in virtual environments, the efficiency of our planning-based model suggests that this work could be a step towards effective conversational human-computer interaction situated in the real world.show moreshow less
  • Die zunehmende Komplexität moderner Gebäude und Infrastrukturen führt dazu, dass alltägliche Aktivitäten, wie z.B. die Identifizierung von gesuchten Objekten in unserer Umgebung und das Auffinden von Orten, beträchtliche Zeit und kognitive Ressourcen in Anspruch nehmen können. In dieser Dissertation werden computerbasierte Verfahren präsentiert, welche eine Person dabei unterstützen, Zielobjekte in Ihrem Umfeld zu identifizieren. Dabei werden Informationen über die Situation und das physische Umfeld der Person - der sog. situierte Kontext - in natürliche Sprache umgewandelt. So wird Diskurs generiert, der einen Hörer interaktiv zum Erreichen eines Zieles bzw. zum Abschließen einer Aufgabe führt. Hierbei kommen Methoden aus der Planung zum Einsatz, einem Gebiet der künstlichen Intelligenz, welches sich mit der Berechnung von zielgerichteten Handlungsabfolgen beschäftigt. Die in dieser Arbeit vorgestellten Verfahren widmen sich den Herausforderungen der Kontrolle des situierten Kontexts, der Anpassung an den situierten Kontext sowie derDie zunehmende Komplexität moderner Gebäude und Infrastrukturen führt dazu, dass alltägliche Aktivitäten, wie z.B. die Identifizierung von gesuchten Objekten in unserer Umgebung und das Auffinden von Orten, beträchtliche Zeit und kognitive Ressourcen in Anspruch nehmen können. In dieser Dissertation werden computerbasierte Verfahren präsentiert, welche eine Person dabei unterstützen, Zielobjekte in Ihrem Umfeld zu identifizieren. Dabei werden Informationen über die Situation und das physische Umfeld der Person - der sog. situierte Kontext - in natürliche Sprache umgewandelt. So wird Diskurs generiert, der einen Hörer interaktiv zum Erreichen eines Zieles bzw. zum Abschließen einer Aufgabe führt. Hierbei kommen Methoden aus der Planung zum Einsatz, einem Gebiet der künstlichen Intelligenz, welches sich mit der Berechnung von zielgerichteten Handlungsabfolgen beschäftigt. Die in dieser Arbeit vorgestellten Verfahren widmen sich den Herausforderungen der Kontrolle des situierten Kontexts, der Anpassung an den situierten Kontext sowie der Überwachung des situierten Kontexts. Zu diesem Zweck wird zunächst ein Sprachgenerierungssystem entwickelt, das plant, wie der nicht-linguistische Kontext einer Szene manipuliert werden kann, damit die Referenz auf relevante Objekte erleichtert wird. Dadurch ist es möglich, die kognitive Beanspruchung eines Hörers bei der Interpretation einer Referenz über mehrere sprachliche Äußerungen zu verteilen. Damit die linguistischen Entscheidungen des Systems in einem vorgegebenen Kontext optimiert werden können, wird weiterhin gelernt, die Äußerungen von Sprechern danach zu differenzieren, wie hilfreich sie in bestimmten Situationen für die Hörer waren. Dabei wird das Verhalten von menschlichen Sprechern, welches sich als hilfreich erwiesen hat, modelliert. Das daraus entstehende System kombiniert symbolisches und statistisches Schließen und stellt somit einen Lösungsansatz für das Problem dar, wie nicht-triviale referentielle Entscheidungen in reichem Kontext getroffen werden können. Zum Schluss wird ein komplementärer Mechanismus vorgestellt, der potentielle Missverständnisse bzgl. generierter Referenzen verhindern kann. Zu diesem Zweck kommt Blickerfassungstechnologie zum Einsatz. Auf Basis der Überwachung und Auswertung des Blicks des Hörers können Rückschlüsse über die Interpretation gegebener Referenzen gemacht werden; dieser Mechanismus funktioniert auch in sich dynamisch verändernden Szenen zuverlässig. Somit wird ein System präsentiert, welches den Blick des Hörers nutzt, um rasch Feedback zu generieren. Dieses Vorgehen verbessert die Effektivität des Diskurses zusätzlich. Die vorgestellten Verfahren werden in virtuellen Umwelten evaluiert. Die Effizienz des planungsbasierten Modells ist allerdings ein Indiz dafür, dass die in dieser Arbeit gemachten Vorschläge dazu dienen können, effektive Mensch-Computer-Interaktion auf Basis von Sprache auch in der realen Welt umzusetzen.show moreshow less

Download full text files

Export metadata

Additional Services

Search Google Scholar Statistics
Metadaten
Author details:Konstantina Garoufi
URN:urn:nbn:de:kobv:517-opus-69108
Supervisor(s):Alexander Koller
Publication type:Doctoral Thesis
Language:English
Publication year:2013
Publishing institution:Universität Potsdam
Granting institution:Universität Potsdam
Date of final exam:2013/12/13
Release date:2013/12/20
Tag:automated planning; effective discourse; human-computer interaction; natural language generation; situated context
RVK - Regensburg classification:ES 915
RVK - Regensburg classification:ES 965
RVK - Regensburg classification:ES 900
Organizational units:Humanwissenschaftliche Fakultät / Strukturbereich Kognitionswissenschaften / Department Linguistik
DDC classification:4 Sprache / 40 Sprache / 400 Sprache
Institution name at the time of the publication:Humanwissenschaftliche Fakultät / Institut für Linguistik / Allgemeine Sprachwissenschaft
License (German):License LogoKeine öffentliche Lizenz: Unter Urheberrechtsschutz
Accept ✔
This website uses technically necessary session cookies. By continuing to use the website, you agree to this. You can find our privacy policy here.