Künstliche Text-Intelligenz: Die Maschine liest und versteht


Wenn es darum geht, einen Überblick über unstrukturierte Daten (Texte) zu bekommen, sind Wordclouds oft hilfreich. Aber sie haben Grenzen. Und es gibt sehr viel smartere Arten, wie Maschinen mit Texten umgehen können.

Schon in der oben dargestellten Wordcloud sieht man sehr gut, dass bei der schlichten Erstellung der Wordcloud Doppelungen enthalten sind, die ein Mensch sofort aussortiert hätte: Die Worte „Text“, „Texte“, „Texten“ sind zwar tatsächlich in diesem Blogeintrag enthalten, sie einzeln darzustellen macht jedoch eigentlich keinen Sinn und liefert keinen Mehrwert.  

Unsere Kantar Analytics Practice-Lösung setzt genau hier an, um nicht nur einzelne Worte zu beurteilen, sondern auch Themen und Kategorien. Die Verarbeitung besteht aus drei Schritten: Säuberung der Texte, Bildung der Modelle, Anwendung der Modelle.

Für die Textsäuberung werden die Texte von Satzzeichen, überflüssigen Leerzeichen und Rechtschreibfehlern, Tippfehlern, Füllwörtern („gar“, „ja“, „also“, …) und Stoppwörtern („in“, „oder“, „der“, …) befreit, um schon vorab nur die Daten in die Verarbeitung zu schicken, die wirklich inhaltsreich sind. Falls eine Übersetzung nötig ist, ist sie ebenfalls Teil der Textsäuberung.

Bei der Modellierung werden inhaltlich ähnliche Worte automatisch zusammengefasst. Beispielsweise wird die Kombination der Worte „Übersetzung“, „Text“, „Texte“, „Texten“, „Textes“ (siehe Abbildung 2, pink umrandetes Cluster) automatisch als inhaltlich verwandt erkannt.

Neuronale Netze verarbeiten die zu numerischen Vektoren umgewandelten Texte innerhalb kürzester Zeit und weisen sie vorgegebenen Kategorien zu.

Bei vielen Surveys geht es zunächst darum, die wesentlichen Themen aus den Texten herauszufiltern. Vorbei sind die Zeiten, in denen Texte ausschließlich manuell kodiert werden können. Ohne vorher bestehende Kodierung „stampfen“ wir ein Kategoriensystem „aus dem Boden“. Beide Ansätze münden in ein Modell, das für die jeweilige Studie einzigartig ist und jederzeit auf neue Texte angewendet werden kann.

Dieselbe grundlegende Idee von Textanalyse setzen wir auch in anderen Datenquellen ein – zum Beispiel bei der Analyse von Social Media Daten oder Kommentaren in einer Feedbackbefragung oder auch in Echtzeit innerhalb eines Chatbots. Lesen Sie hierzu demnächst mehr in unserem Blog.

Kontakt: Markus.Eberl@kantar.com


Zurück zur Übersicht

5. Oktober 2018

Analytics Practice

Analytics Practice, Big Data, Machine Learning, TER

weitere Artikel der Analytics Practice