Synthese linguistischer Korpusdaten

Motivation

Die Verfügbarkeit ausreichender Trainingsdaten ist die Voraussetzung für die Teilhabe kleiner und mittlerer deutscher Unternehmen (KMU) am Fortschritt der KI. Für die automatische Sprachverarbeitung (insbesondere des Deutschen) sind bisher kaum Tools verfügbar, die es erlauben, aus einer kleinen Menge an Sprachdaten die für maschinelles Lernen erforderlichen Datenmengen automatisch zu generieren (Data-Augmentation). Das Verbundprojekt Synthese linguistischer Korpusdaten (SLIK) schließt diese Lücke und zielt auf deutsche KMU ab, die KI-basierte Sprachassistenten einsetzen möchten, aber nicht über genug eigene Daten für das Training von Sprachverarbeitungsmodellen verfügen.

Ziele und Vorgehen

SLIK stellt Werkzeuge zur Erzeugung domänenspezifischer synthetischer Sprachdaten für KMU bereit. Wir bringen dazu die Expertise der Kauz GmbH im Bereich regelbasierte Analyse und Generierung von schriftsprachlichen Sprachdaten, der Aristech GmbH im Bereich Spracherkennung und Text-to-Speech und der Universität des Saarlandes im Bereich Low-Resource-Deep-Learning zusammen. Das Projekt liefert mit Hilfe von Data-Augmentation generierte Korpora geschriebener und gesprochener Sprache für verschiedene für KMU relevante Domänen sowie einfach zu verwendende Tools, mit denen aus wenigen Nutzerdaten per Data-Augmentation ausreichend Daten für das Training von Sprachassistenten oder anderen automatischen Sprachverarbeitungssystemen erstellt werden können.

Die Projektlaufzeit beträgt 24 Monate (Mai 2022 – April 2024).

Förderung

Das Projekt „SLIK“ wird im Rahmen des Förderschwerpunkts „KI4KMU – Erforschung, Entwicklung und Nutzung von Methoden der Künstlichen Intelligenz in KMU“ durch das Bundesministerium für Bildung und Forschung gefördert.

Hier ist das Projektblatt einsehbar.