30. April 2020 | Presseinformationen: Forschung

Lippenlesen für die Spracherkennung Wie Kameras und künstliche Intelligenz den Sprachassistenten „made in Germany“ unterstützen

Digitale Sprachassistenten haben ihren Weg in den Alltag gefunden. Sie ermöglichen eine komfortable Interaktion mit elektronischen Geräten durch natürliche Sprache. Im Business-to-Business-Bereich jedoch beschränken fehlende Datensouverinität und offene Datenschutzfragen den Einsatz solcher Systeme. Die Technische Universität Braunschweig beteiligt sich im Verbundprojekt SPEAKER an der Entwicklung einer deutschen rechtskonformen KI-Sprachassistenzplattform. Die Forscherinnen und Forscher aus Braunschweig bringen dabei der Sprachassistenzplattform das „Sehen“ bei.

Die TU Braunschweig entwickelt gemeinsam mit 19 Partnern aus Industrie und Wissenschaft im Verbundprojekt SPEAKER eine deutsche Sprachassistenzplattform. Sie wird europäische Standards in puncto Datensicherheit und Datenhoheit erfüllen und für den professionellen Einsatz geeignet sein. Die Plattform soll dabei offen, modular und skalierbar sein. „Eine solche nationale Sprachassistenzplattform stellt nicht nur die Einhaltung des nationalen und europäischen Datenschutzrechts gegenüber dem Einzelnen sicher. Sie hilft auch dabei, Industriespionage oder ähnlichen Gefahren für unsere Gesellschaft vorzubeugen“, sagt Professor Tim Fingscheidt, Projektleiter seitens der TU Braunschweig.

Spracherkennung in lauter Umgebung weniger störanfällig

Für SPEAKER machen die Forscherinnen und Forscher der TU Braunschweig Kameradaten mittels künstlicher Intelligenz für den Sprachassistenten nutzbar. Die so gewonnenen Daten unterstützen so die mikrofonbasierte Spracherkennung. Diese sogenannte Informationsfusion aus akustischen und visuellen Daten kann insbesondere in akustisch gestörten Umgebungen – wie in Produktionsanlagen oder an öffentlichen Info-Terminals – helfen, die Spracherkennung weniger fehleranfällig und deutlich präziser zu gestalten. Dabei wird aus den anonymisierten Kameradaten ausschliesslich die Mundregion extrahiert und über die Bewegungen der Lippen werden – wie beim menschlichen Lippenlesen – Informationen über die gesprochenen Worte gewonnen. Für die Spracherkennung werden moderne neuronale Faltungsnetze genutzt, die in den letzten Jahren für große Fortschritte im Bereich der Bildanalyse gesorgt haben.

Einsatzbereiche von KI-basierter Spracherkennung

Sprachassistenten auf der Basis von künstlicher Intelligenz (KI) wird für Branchen wie den Gesundheitssektor, das Finanzwesen und die produzierende Industrie 4.0 wichtige Zukunftsperspektiven bieten. In der medizinischen Behandlung etwa können Sprachdialogsysteme Ärztinnen und Ärzte, Pflegerinnen und Pflegern unterstützen. So können sie Patientendaten freihändig – also ohne Tastatureingaben – abfragen, berührungslos medizinische Geräte bedienen und Diagnosen via Spracheingabe dokumentieren. In der Industrie bringen Sprachassistenten bei der digitalen Inspektion und Qualitätssicherung von Maschinen, Fahrzeugen oder Infrastrukturen große Vorteile. Service- und Verwaltungsprozesse können mit dialogbasierten Assistenten effizienter gestaltet werden. Bei allen Anwendungen gilt es jedoch, Technologie und Datensouveränität optimal in Einklang zu bringen, damit besonders deutsche Unternehmen Sprachassistenzsysteme gezielt und sicher für sich nutzen können.

Am Institut für Nachrichtentechnik (IfN) der TU Braunschweig forschen Wissenschaftler bereits seit den 1960er-Jahren an automatischer Spracherkennung und arbeiten dabei in jüngerer Zeit mit modernen Methoden der künstlichen Intelligenz und des Deep Learnings in den Forschungsbereichen Sprachverarbeitung und Bildanalyse. Insbesondere im Forschungsgebiet der Informationsfusion verfügt das IfN über einschlägige und langjährige Erfahrungen. Im Jahr 2017 erhielt das IfN für Grundlagenforschung zu der im Projekt zu entwickelnden audiovisuellen Spracherkennung den Preis der Informationstechnischen Gesellschaft (ITG) im Verband der Elektrotechnik, Elektronik, Informationstechnik (VDE).

Projektdaten:

SPEAKER wird vom BMWi mit insgesamt 12 Millionen Euro für drei Jahre (April 2020 – März 2023) gefördert. Die TU Braunschweig erhält anteilig rund 300.000 Euro. Das Projektkonsortium wird unter der Leitung der Fraunhofer-Institute für Integrierte Schaltungen (IIS) und für Intelligente Analyse- und Informationssysteme (IAIS) von 20 Partnern aus Wissenschaft und Industrie gebildet. Dazu kommen 40 assoziierte Partner, die ihr Interesse für eine Sprachassistenzplattform bekundet haben.

Kontakt

Prof. Dr.-Ing. Tim Fingscheidt

Technische Universität Braunschweig
Institut für Nachrichtentechnik
Abteilung Signalverarbeitung und Machine Learning
Schleinitzstraße 22
38106 Braunschweig
Tel.: 0531 391-2485
E-Mail: t.fingscheidt@tu-braunschweig.de
www.ifn.ing.tu-bs.de

Pressebild

Die audiovisuelle Spracherkennung nutzt auch Kameradaten des Sprechers und extrahiert – wie beim Lippenlesen – Informationen über die Sprachäußerung aus der Mundregion. Dies unterstützt die mikrofonbasierte Spracherkennung insbesondere in lauten, störgeräuschbehafteten Umgebungen. Bildnachweis: Timo Lohrenz

Das Forschungsprofil der TU Braunschweig

➜ Es gibt vier Forschungsschwerpunkte an der TU Braunschweig: Stadt der Zukunft, Metrologie, Mobilität und Engineering For Health.

➜ Exzellenzcluster: In der Exzellenzstrategie des Bundes und der Länder 2018 war die TU Braunschweig mit zwei Anträgen erfolgreich. Die beiden Forschungsprojekte „QuantumFrontiers“ zur Quanten- und Nanometrologie und „SE²A“ zur Nachhaltigkeit in der Luftfahrt werden seit 2019 für sieben Jahre gefördert. Beteiligt ist die TU Braunschweig am Cluster „PhoenixD“ der Leibniz Universität Hannover (LUH), das neue optische Technologien erforscht.

➜ Forschungsprojekte: Einen besonderen Stellenwert nehmen die von der Deutschen Forschungsgemeinschaft (DFG) geförderten Sonderforschungsbereiche, Forschungsgruppen und Schwerpunktprogramme ein.

➜ Forschungszentren: Das Forschungsprofil der TU Braunschweig wird durch mehrere fächer- und fakultätsübergreifende Forschungsverbünde geprägt, die als Zentren organisiert sind.

Vorheriger Beitrag Nächster Beitrag