IT-Entwicklung: NLP – Natural Language Processing

NLP-Anwendungen werden für Unternehmen zunehmend interessant, um große Datenmengen geschriebener oder gesprochener Texte automatisiert zu bearbeiten. Muster in Daten und Zahlen, Texten und Bildern zu finden gelingt immer umfassender und schneller.

Was ist Natural Language Processing – außer dass ein Sprachassistent mich anspricht?

Natural Language Processing (NLP) wird oft zusammen mit einem verwandten Buzz-Wort und einer weiteren IT-Disziplin erwähnt. Beide haben Schnittmengen, sind aber keine Synonyme. Das verwandte Schlagwort ist „KI“ (Künstliche Intelligenz), die verwandte IT-Disziplin ist „Maschinelles Lernen“. Maschinelles Lernen ist ein statistischer Ansatz zum „Lernen“ von Mustern auf der Grundlage sogenannter Trainingsdaten. Es stimmt, dass statistische Ansätze im NLP weit verbreitet sind, einziges Standbein sind sie jedoch nicht.

von Sarah Holschneider

Voice Assistants are popular KI devices and need to handle Natural Language Processing
Sprachassistenten sind beliebte KI-Geräte. Sie verarbeiten natürliche gesprochene Sprache.

Markennamen springen uns entgegen, wenn wir an „Sprache“ und „Computer“ denken: „Alexa“, „Google home“ oder „Siri“ – alle Sprachassistenten verwenden NLP. Das schnell wachsende Feld der Anwendungen für Natural Language Prozesse kann jedoch weit mehr.

NLP ist ein gemeinsamer Teilbereich d er Linguistik und der Informatik, der sich mit der Interaktion zwischen Computern und natürlicher Sprache beschäftigt. Mit „natürlicher“ Sprache ist hierbei die von Menschen gesprochene Sprache gemeint, in Abgrenzung zu Programmier- oder Maschinensprachen.

Zwischen Ende der 1980er und Mitte der 1990er Jahre befasste sich die Forschung zur Verarbeitung natürlicher Sprachen überwiegend mit dem Maschinellen Lernen. Dass viele Menschen die künstliche Generierung von Wissen mit Maschinellem Lernen gleichsetzen, liegt vermutlich an der intensiven Konzentration von Forschung und Anwendungs-Entwicklung auf das Thema.

Die Algorithmen des Maschinellen Lernens sind grundsätzlich in der Lage, durch die Analyse von Korpora (riesige Textsammlungen) automatisch Regeln aufzustellen und anhand typischer Beispiele zu lernen.

Sarah Holschneider arbeitet seit drei Jahren an der Entwicklung von NLP-Lösungen für L- One Systems, seit März 2020 als Leiterin der NLP-Abteilung.

Was auf den ersten Blick wie ein einfacher Weg aussieht, um textbezogene Aufgaben automatisiert zu lösen, erfordert oft zahlreiche Vorverarbeitungsschritte durch Spezialisten mit linguistischen Kenntnissen. In einigen Fällen können bereits Muttersprachler helfen (viel Motivation vorausgesetzt). In anderen Fällen ist Spezialwissen über sprachliche Abhängigkeiten und Computerlinguistik eine notwendige Voraussetzung.

»Ihren besonderen Anwendungsfall so spezifisch wie möglich zu definieren, ist mehr als die halbe Miete.«

Sarah Holschneider

Systeme, die auf maschinell selbst lernenden Algorithmen basieren, verfügen gegenüber manuell geschriebenen Regeln über viele Vorteile. Sie schöpfen aus den Möglichkeiten des Maschinellen Lernens. Da sie sich auf die häufigsten Fälle konzentrieren, verstricken sie sich nicht in Ausnahmen. Damit die Statistik ihre Wirkung entfalten kann, braucht man jedoch einen ausreichend großen Datensatz, um statistische Signifikanzen herzustellen. Regelbasierte Systeme sind oft schlechter skalierbar, können aber die Lücke schließen, wenn nur kleine Datenmengen zur Verfügung stehen.