Lippenlesen für die Spracherkennung Wie Kameras und künstliche Intelligenz den Sprachassistenten „made in Germany“ unterstützen
Digitale Sprachassistenten haben ihren Weg in den Alltag gefunden. Sie ermöglichen eine komfortable Interaktion mit elektronischen Geräten durch natürliche Sprache. Im Business-to-Business-Bereich jedoch beschränken fehlende Datensouverinität und offene Datenschutzfragen den Einsatz solcher Systeme. Die Technische Universität Braunschweig beteiligt sich im Verbundprojekt SPEAKER an der Entwicklung einer deutschen rechtskonformen KI-Sprachassistenzplattform. Die Forscherinnen und Forscher aus Braunschweig bringen dabei der Sprachassistenzplattform das „Sehen“ bei.
Die TU Braunschweig entwickelt gemeinsam mit 19 Partnern aus Industrie und Wissenschaft im Verbundprojekt SPEAKER eine deutsche Sprachassistenzplattform. Sie wird europäische Standards in puncto Datensicherheit und Datenhoheit erfüllen und für den professionellen Einsatz geeignet sein. Die Plattform soll dabei offen, modular und skalierbar sein. „Eine solche nationale Sprachassistenzplattform stellt nicht nur die Einhaltung des nationalen und europäischen Datenschutzrechts gegenüber dem Einzelnen sicher. Sie hilft auch dabei, Industriespionage oder ähnlichen Gefahren für unsere Gesellschaft vorzubeugen“, sagt Professor Tim Fingscheidt, Projektleiter seitens der TU Braunschweig.
Spracherkennung in lauter Umgebung weniger störanfällig
Für SPEAKER machen die Forscherinnen und Forscher der TU Braunschweig Kameradaten mittels künstlicher Intelligenz für den Sprachassistenten nutzbar. Die so gewonnenen Daten unterstützen so die mikrofonbasierte Spracherkennung. Diese sogenannte Informationsfusion aus akustischen und visuellen Daten kann insbesondere in akustisch gestörten Umgebungen – wie in Produktionsanlagen oder an öffentlichen Info-Terminals – helfen, die Spracherkennung weniger fehleranfällig und deutlich präziser zu gestalten. Dabei wird aus den anonymisierten Kameradaten ausschliesslich die Mundregion extrahiert und über die Bewegungen der Lippen werden – wie beim menschlichen Lippenlesen – Informationen über die gesprochenen Worte gewonnen. Für die Spracherkennung werden moderne neuronale Faltungsnetze genutzt, die in den letzten Jahren für große Fortschritte im Bereich der Bildanalyse gesorgt haben.
Einsatzbereiche von KI-basierter Spracherkennung
Sprachassistenten auf der Basis von künstlicher Intelligenz (KI) wird für Branchen wie den Gesundheitssektor, das Finanzwesen und die produzierende Industrie 4.0 wichtige Zukunftsperspektiven bieten. In der medizinischen Behandlung etwa können Sprachdialogsysteme Ärztinnen und Ärzte, Pflegerinnen und Pflegern unterstützen. So können sie Patientendaten freihändig – also ohne Tastatureingaben – abfragen, berührungslos medizinische Geräte bedienen und Diagnosen via Spracheingabe dokumentieren. In der Industrie bringen Sprachassistenten bei der digitalen Inspektion und Qualitätssicherung von Maschinen, Fahrzeugen oder Infrastrukturen große Vorteile. Service- und Verwaltungsprozesse können mit dialogbasierten Assistenten effizienter gestaltet werden. Bei allen Anwendungen gilt es jedoch, Technologie und Datensouveränität optimal in Einklang zu bringen, damit besonders deutsche Unternehmen Sprachassistenzsysteme gezielt und sicher für sich nutzen können.
Am Institut für Nachrichtentechnik (IfN) der TU Braunschweig forschen Wissenschaftler bereits seit den 1960er-Jahren an automatischer Spracherkennung und arbeiten dabei in jüngerer Zeit mit modernen Methoden der künstlichen Intelligenz und des Deep Learnings in den Forschungsbereichen Sprachverarbeitung und Bildanalyse. Insbesondere im Forschungsgebiet der Informationsfusion verfügt das IfN über einschlägige und langjährige Erfahrungen. Im Jahr 2017 erhielt das IfN für Grundlagenforschung zu der im Projekt zu entwickelnden audiovisuellen Spracherkennung den Preis der Informationstechnischen Gesellschaft (ITG) im Verband der Elektrotechnik, Elektronik, Informationstechnik (VDE).
Projektdaten:
SPEAKER wird vom BMWi mit insgesamt 12 Millionen Euro für drei Jahre (April 2020 – März 2023) gefördert. Die TU Braunschweig erhält anteilig rund 300.000 Euro. Das Projektkonsortium wird unter der Leitung der Fraunhofer-Institute für Integrierte Schaltungen (IIS) und für Intelligente Analyse- und Informationssysteme (IAIS) von 20 Partnern aus Wissenschaft und Industrie gebildet. Dazu kommen 40 assoziierte Partner, die ihr Interesse für eine Sprachassistenzplattform bekundet haben.