IT-Entwicklung: Was ist Natural Language Processing (NLP)?

Was ist Natural Language Processing – außer dass ein Sprachassistent mich anspricht?

Natural Language Processing (NLP) ist aus der automatisierten Textverarbeitung nicht mehr wegzudenken. NLP wird oft in einem Atemzug mit dem verwandten Buzz-Wort „KI“ (Künstliche Intelligenz) sowie dessen Teilbereich, dem Maschinellen Lernen, genannt.

Was ist Natural Language Processing und bei welchen NLP-Anwendungsfällen kann es Sinn machen, auf KI-Algorithmen zu verzichten? Das erfährst du in diesem Beitrag.

von Sarah Holschneider, Head of NLP bei L-One Systems

Voice Assistants are popular KI devices and need to handle Natural Language Processing
Sprachassistenten sind beliebte KI-Geräte. Sie verarbeiten natürliche gesprochene Sprache.

Markennamen springen uns entgegen, wenn wir an „Sprache“ und „Computer“ denken: „Alexa“, „Google home“ oder „Siri“ – alle Sprachassistenten verwenden NLP. Das schnell wachsende Feld der Anwendungen für Natural Language Processing kann jedoch weit mehr.

Was ist Natural Language Processing?

NLP ist ein gemeinsamer Teilbereich der Linguistik und der Informatik, der sich  damit beschäftigt, wie Computer natürliche Sprache  verarbeiten und analysieren können.

Mit „natürlicher“ Sprache ist hierbei die von Menschen gesprochene oder geschriebene Sprache gemeint. Im Gegensatz zu Programmier- oder Maschinensprachen ist sie häufig nicht eindeutig. Um unstrukturierte, natürliche Textdaten automatisiert verarbeiten zu können, ist daher linguistisches Fachwissen nötig.

»Den besonderen Anwendungsfall so spezifisch wie möglich zu definieren, ist mehr als die halbe Miete jedes NLP-Projekts.«

Sarah Holschneider, Head of NLP bei L-One

Unternehmen können vielfach von NLP-Lösungen profitieren: Mithilfe von Natural Language Processing lassen sich zum Beispiel textbezogene Aufgaben automatisieren oder Muster und Zusammenhänge in großen Textmengen identifizieren und dadurch wertvolle Erkenntnisse gewinnen.

Kommen Algorithmen ohne NLP-Expertise aus?

Maschinelles Lernen ist ein statistischer Ansatz zum „Lernen“ von Mustern auf der Grundlage sogenannter Trainingsdaten, also zum Beispiel einer großen Menge von Texten.

Die Algorithmen des Maschinellen Lernens sind grundsätzlich in der Lage, textbezogene Aufgaben automatisiert zu lösen. Durch die Analyse von Korpora (riesige Textsammlungen) stellen sie automatisch Regeln auf und lernen anhand typischer Beispiele. Was auf den ersten Blick wie ein einfacher Weg aussieht, reicht allerdings meist nicht aus.

Sarah Holschneider arbeitet seit fünf Jahren an der Entwicklung von NLP-Lösungen für L-One Systems, seit März 2020 als Leiterin der NLP-Abteilung.

Um qualitativ hochwertige Ergebnisse zu erzielen, erfordert die automatisierte Verarbeitung von natürlichen Texten häufig zahlreiche Vorverarbeitungsschritte durch NLP-Spezialisten mit linguistischen Kenntnissen. In einigen Fällen können bereits Muttersprachler helfen – viel Motivation vorausgesetzt. In anderen Fällen ist Spezialwissen über sprachliche Abhängigkeiten und Computerlinguistik eine notwendige Voraussetzung, also Expertise in Natural Language Processing

Die besten Ergebnisse lassen sich also erzielen, wenn NLP und Maschinelles Lernen Hand in Hand gehen.

Funktioniert NLP ohne Maschinelles Lernen?

Es stimmt, dass statistische Ansätze wie Maschinelles Lernen im NLP weit verbreitet sind, einziges Standbein sind sie jedoch nicht.

NLP-Lösungen können auch auf regelbasierten Systemen basieren. Diese beruhen auf einer Wissensbasis (Fakten), Regeln und einem Regelinterpreter. Der Interpreter nutzt die Fakten und Regeln als Grundlage, um Schlussfolgerungen aus neuen, unbekannten Daten zu ziehen.

NLP-Lösungen für kleine Datenmengen

Statistische Systeme, die auf maschinell selbst lernenden Algorithmen basieren, verfügen gegenüber regelbasierten Systemen über viele Vorteile: Da sie sich auf die häufigsten Fälle konzentrieren, verstricken sie sich nicht in Ausnahmen. Damit die Statistik ihre Wirkung entfalten kann, braucht man jedoch einen ausreichend großen Datensatz, um statistische Signifikanzen herzustellen.

Regelbasierte Systeme sind oft schlechter skalierbar, können aber die Lücke schließen, wenn nur kleine Datenmengen zur Verfügung stehen.

Welche NLP-Lösung eignet sich am besten für meinen Anwendungsfall?

Je nach Anwendungsfall kann ein regelbasiertes System besser geeignet sein, wenn du eine fixe Anzahl von Fällen hast, die gelöst werden muss. Stell dir vor, du möchtest einen Text in einer PowerPoint-Vorlage übersetzen, die dein Unternehmen verwendet. Ein einfaches string.replace() könnte ausreichen, während die Investition in einen statistischen Ansatz für die maschinelle Übersetzung sehr viel zeit- und kostenintensiver wäre.

»NLP-Spezialisten müssen für jeden Anwendungsfall individuell entscheiden, welches System sich am besten eignet.«

Sarah Holschneider, Head of NLP bei L-One

Um die passende Lösung für unsere Kunden zu finden, beziehen wir bei L-One Linguisten in die gesamte Entwicklung von NLP-bezogenen Projekten ein. Genauso, wie man keinen Rechner programmieren sollte, ohne etwas von Algebra zu verstehen, ist ein tiefes Verständnis von Sprache unabdingbar, um eine NLP-Anwendung zu entwickeln.