Linguistik und Natural Language Processing

Bester Freund des Menschen oder vierbeiniges, bellendes, Säugetier, das meist an der Leine geführt wird? Ein einziges Konzept kann dem Algorithmus unterschiedlich beschrieben werden. Trotzdem muss er in beiden Fällen den Hund erkennen.
Warum NLP und Linguistik zusammengehören

Das Buzzword NLP (Natural Language Processing) rückt in der IT-Welt immer mehr in den Fokus. Ob in den neusten technologischen Innovationen oder auf LinkedIn-Profilen von studierten Informatikern – jeder macht NLP. Jeder ist Experte. Meistens handelt es sich bei der Begriffsbenutzung allerdings um eine Anwendung von Machine Learning (ML) speziell auf Sprachdaten. Konkret heißt das, ein Algorithmus wird auf große Mengen von Daten trainiert, und kann somit, basierend auf statistischen Wahrscheinlichkeiten, Anfragen bearbeiten.

Bei diesen Anfragen kann es sich um Spracherkennung handeln, Sentiment-Analyse oder die Zusammenfassung von Dokumenten, um wichtige Beispiele zu nennen. Es ist hierbei eigentlich nicht von großer Bedeutung, worum es sich bei diesen Daten handelt, solange genug davon vorhanden sind um Muster darin zuerkennen.

von Sophie Pozniak, Linguistic Data Scientist

Natürliche Sprache vs. maschinelle Sprache

Der Machine-Learning-Ansatz funktioniert vor allem gut, wenn gewünschte Ergebnisse sich innerhalb eines geschlossenen Rahmens – eines endlichen Systems (finite set) – befinden.

Sprache hingegen ist unbegrenzt (infinite set), es werden kontinuierlich neue Sätze oder Wortneuschöpfungen gebildet, die noch nie zuvor in gleicher Form geäußert worden sind. Während wir als Menschen für Sprachen Regeln (z.B. Grammatik) kennen, die uns dabei helfen Wörter so miteinander zu kombinieren, dass sie grammatikalisch korrekt sind, kann ein Algorithmus ohne „Anleitung“ erstmal nur solche Kombinationen erstellen, die er aus seinen Daten schon kennt.

Gleichzeitig können wir Bedeutungen neuer oder uns unbekannter Wörter oft aus ihrem verwendeten Kontext verstehen. Auch hier besteht das Problem, das unbekannte, von einem gesetzten Standard abweichende Sprache aktuellen Programmen noch große Schwierigkeiten macht. Für die Verarbeitung von Sprache ist es allerdings nicht ausreichend auf Standards zuzugreifen und außerdem diskriminierend: Wer sich nicht innerhalb eines bekannten Standards (Ausdrucksweise, Dialektfreiheit, etc.) ausdrückt, wird nicht verstanden und somit beispielsweise nicht oder nicht korrekt bedient.

NLP @ L-One Systems, natürliche vs. maschinelle Sprache
Natürliche und maschinelle Sprache unterscheiden sich in ihren Systemeigenschaften grundsätzlich. Algorithmen werden auf große Mengen von Daten trainiert, und können, basierend auf statistischen Wahrscheinlichkeiten, Anfragen bearbeiten. Menschen verstehen Sprache.

Gerade für die Entwicklung von Algorithmen zum Sprachverständnis (NLU = Natural Language Understanding) werden diese Aspekte immer kritischer. Um einen Satz zu verstehen, muss man ihn nicht genauso schon einmal gehört haben. Auch um ein Wort zu verstehen, braucht man es nicht unbedingt schonmal gehört zu haben – oft reicht uns der Kontext aus.

Um maschinelle Sprachverarbeitung dabei zu unterstützen, mit neuen Daten umgehen zu können, ist es unumgänglich erst einmal zu verstehen, wie Sprache in der Realität benutzt und geformt wird. Hierzu zählen Aspekte wie die Variabilität in der Aussprache, im Stil und der Wortwahl. So kann ein Konzept, zum Beispiel „Hund“, unterschiedlich beschrieben werden: „Der beste Freund des Menschen“ versus „vierbeiniges, bellendes, Säugetier, das meist an der Leine geführt wird“. Gleichzeitig hat ein Wort auch nicht unbedingt nur eine Bedeutung. „Schlange“ meint sowohl das beinlose Tier, als auch die intrigante Persönlichkeit. Beides muss im Kontext erkannt und unterschieden werden.

Die genannten Aspekte gehören verständlicherweise zu den Schwachstellen von State-of-the-Art NLP-Tools: Während Systeme mit riesigen Language Models – wie GTP-3 mit 175 Milliarden ML Parametern – immer stabiler werden, fehlt noch immer die Fähigkeit mit „neuartigen“/unbekannten und von Standards abweichenden Daten umzugehen. Es findet keine Transferleistung statt.

»Gerade für die Entwicklung von Algorithmen zum Natural Language Understanding werden Kontext-Aspekte immer kritischer.«

Sarah Holschneider, Head of NLP bei L-One Systems

Wir alle müssen etwas genauer hinhören und uns konzentrieren, wenn wir mit einem neuen, starken Dialekt oder Akzent konfrontiert werden. Meist schaffen wir es trotzdem, die korrekte Intention einer Äußerung herauszufiltern. Wie das möglich ist, können wir einer Maschine erst dann beibringen, wenn wir selbst verstanden haben, wie es uns gelingt. Hierzu dient das Wissen aus der sprachwissenschaftlichen Linguistik, die Sprache unter anderem hinsichtlich ihrer Funktion, geschichtlicher Entwicklung, Ausführung vergleichend untersucht und beschreibt.

So kann zum Beispiel zusätzliches Wissen aus der Phonologie – die Untersuchung des Lautsystems einer Sprache – von Worten Spracherkennungssysteme verbessern. Es könnte dabei helfen nicht-standardisiert ausgesprochene Wörter trotzdem zu erkennen, weil beispielsweise der Unterschied eines Lautes, Phon, zur Standardaussprache keinen Unterschied in der Bedeutung des Wortes macht. Im Kontrast dazu stehen Sprachlaute, die Bedeutungsunterschiede bewirken und Phoneme genannt werden. Beispiele hierfür wären akzentbedingte länger gezogene Vokale in der Aussprache.

    • „Hiemel“ statt „Himmel“ – Lautsprache: [‘h i: m ə l] vs. [‘h ɪ m ə l]

oder der Austausch eines harten Konsonanten mit einem weichen:

    • „Audo“ statt „Auto“ – Lautsprache: [ˈaʊ̯do] vs. [ˈaʊ̯to]

es gibt die Wörter „Hiemel“ und „Audo“ nicht in der deutschen Sprache, also machen die genannten Lautunterschiede keinen bedeutungsvollen Unterschied für die Interpretation des Wortes, weshalb es verstanden werden sollte) oder die dialektbedingt variierende Aussprache des Buchstabes „R“, zum Beispiel gerollt und nicht gerollt in „Reifen“.

    • Nicht gerolltes R: [‘ʁ ai f ə n]
    • Nicht gerolltes aber vibrierendes R: [‘ʀ ai f ə n]
    • Gerolltes R: [‘r ai f ə n]

Da derartige Ausspracheabweichungen von aktuellen Spracherkennungstools oft noch nicht korrekt interpretiert werden, und dies zur Diskriminierung in der Nutzung solcher Tools führt, könnten mit phonologischem Wissen akzent- und dialektbedingte Muster in Ausspracheabweichungen erkannt und herausgefiltert werden, um dieser Problematik zu begegnen.

NLP-Team@L-One_Systems
Das NLP-Team von L-One Systems verankert linguistische Prinzipien im Natural Language Processing. Das Team sind v. l. n. r.: Anne Burger, Melanie Berger, Sophie Pozniak und Head of NLP Sarah Holschneider.

L-One Systems is currently working with language on a textual level, i.e. written language. Here, too, the integration of linguistics has brought about a number of opportunities for improvement.

While state-of-the-art NLP technologies work almost exclusively on the word level – counting words and making assumptions based on their frequencies – all areas of linguistics can achieve further improvement opportunities for language software. In addition to the phonology already mentioned, this includes:

    • Syntax, sentence theory : the investigation of the structure and structure of sentences
    • Semantics, word theory : the investigation of the meaning of words / utterances
    • Pragmatics, relevance : the investigation of the meaning of utterances in certain contexts 

The NLP team at L-One combines linguistics and computer science areas that deal with the interaction between computers and written natural language. The aim is to develop NLP software solutions that are individually tailored to specific requirements.

Weiteres zu NLP Projekten und L-One Systems

News & Updates

Ja, haltet mich auf dem Laufenden über aktuelle Entwicklungen bei L-One und wie ich digitale Projekte zum Erfolg führen kann.

Video L-One Systems Interview with Lionel Born & Feras Tanan
Wie Software-Entwicklung mit L-One abläuft in 2 Minuten: Lionel Born und Feras Tanan geben Antworten.