How to Create and Deliver Intelligent Information

Optimierung im IT Information Management

In vielen Unternehmen lässt sich der Zustand der IT Dokumentation mit wenigen Sätzen so zusammenfassen: Zahlreiche wichtige Informationen sind entweder nicht vorhanden oder nicht zugänglich. Wenn Informationen vorliegen, sind sie selten eindeutig und zuverlässig und im „Information Retrieval (IR)“ stößt man mit der Zeit auf vollkommen unübersichtliche Mengen an unterschiedlichen Dokumenten. Um diesem auch als „Digitale Deponie“ bezeichneten Zustand Herr zu werden, muss eine neuer Ansatz gewählt werden.

Grundsätzlich bieten sich zwei Methoden an, um auf die erforderlichen Informationen zu reduzieren: “Create“ und „Capture“. Das Unternehmen deckt seinen Bedarf an Informationen also entweder dadurch, dass die Information neu erstellt („Create“), oder in der „digitalen Deponie“ gefunden und erfasst werden („Capture“). Analytics unterstützt vor allem den Capture-Ansatz, auf den wir uns im Folgenden konzentrieren werden.

Die Bewertung im Capturing

Vorausgesetzt, Dokumente / Informationen sind in ausreichendem Maße vorhanden und werden auch bereitgestellt, ist die Analyse durch sequenzielles manuelles Durcharbeiten je nach Anzahl und Umfang kaum zu leisten. Kann Analytics hier eine Hilfestellung bieten? Ja – und zwar in der Bewertung, die wesentlicher Bestandteil des Capturing ist. Wir zeigen im weiteren Verlauf drei Modellansätze, wie Analytics die Bewertung unterstützt, und stellen ihre Stärken und Schwächen vor.

Zur Bemessung von Stärken und Schwächen der Modelle soll das Kriterium dienen, wie gut sie zur Beantwortung der folgenden Frage taugen: Wann ist ein Dokument im Sinne der Nutzung für ein Informationselement sehr gut brauchbar, brauchbar oder ungeeignet? In unserer Analyse ist ein Dokument genau dann relevant, wenn es relevante Informationen enthält.

Dabei bleibt der Aufwand, um das Dokument in Informationselemente umzuwandeln, im ersten Schritt unbeachtet. Analytics soll sich also zunächst auf die Bewertung („Evaluate“) beschränken und die Anzahl der Dokumente reduzieren, die dann in einem zweiten, automatischen / halbautomatischen / manuellen Schritt ganz oder in Teilen in ein Informationsportal einfließen.

Ergebnisse der automatisierten Bewertung

Was wird im ersten Schritt, der automatisierten Bewertung, geleistet? Mit Hilfe von Analytics wird automatisiert zwischen potentiell relevanten und irrelevanten Informationen unterschieden. Hier erwarten wir gerade in Umgebungen mit einer „historisch gewachsenen“, hohen Anzahl von Dokumenten eine entscheidende Unterstützung.

Am Ende liegt ein Korpus von Dokumenten vor, deren Inhalt zumindest in Teilen relevant sein kann und vollständig oder teilweise in das Informationsportal übernommen werden sollte.

Im darauffolgenden automatisierten / manuellen Schritt werden die Informationen aus den relevanten Dokumenten erfasst, an die gewünschte IT Information Management (ITIM) Struktur angepasst und zugeordnet. In einem weiteren Schritt werden die Dokumente durch Fachexperten (SMEs = Subject Matter Experts) auf inhaltliche Korrektheit geprüft, um an den verantwortlichen Information Manager zur Publizierung übergeben zu werden.

Analytics-Methoden

Um Informationen auf bestimmte Kriterien und zu überprüfen und zu bewerten, können grundsätzlich drei Analytics-Methoden eingesetzt werden:

  1. Information Retrieval
  2. Supervised Machine Learning
  3. Unsupervised Machine Learning

Information Retrieval

Beim sogenannten Information Retrieval (IR) wird ein Index erstellt, an den Anfragen mit unterschiedlichen Kriterien gestellt werden können. Der Query besteht nicht aus Suchbegriffen, sondern aus Werten der Kriterien. Diese sind im Kriterienkatalog festgehalten. Es können verschiedene Prioritäten gesetzt und Kriterien genutzt werden. So kann ein Dokument in einem Kontext schlecht abschneiden, in einem anderen jedoch relevant sein. Bei Änderung des Kriterienkatalogs muss der Index nur teilweise aktualisiert werden. Nach der Überprüfung werden die Informationselemente/Dokumente automatisch nach Trefferwahrscheinlichkeit geordnet.

Stärken:

  • Flexibel: Kann bei zusätzlichen Dokumenten, geänderten Anforderungen und neuen Erkenntnissen zu den Kriterien leicht angepasst werden
  • Skalierbar: Queries können entweder auf alle Dokumente definiert oder auf einzelne Untermengen zugeschnitten werden
  • Geringer Aufwand bei Erstellung: Kein Training des Tools nötig, und die Übertragung der Kriterien in angemessene Repräsentationen ist vergleichsweise unproblematisch
  • Übertragbarkeit: Engine und Ranking-Algorithmus können auf verschiedene Indizes angewendet werden, solange die Kriterien übereinstimmen

Schwächen:

  • Unklare Antwort: Es wird keine Klassifizierung in „relevant“ / „irrelevant“ vorgenommen. Das bedeutet, die Grenze muss anhand von definierten Richtlinien oder vom Fachexperten nach eigenem Ermessen gezogen werden.
  • Anwendungsaufwand: Der passende Query muss erarbeitet werden – gegebenenfalls nicht nur inhaltlich, sondern auch strukturell abhängig; dies erfordert Expertenwissen für eine angemessene Gewichtung der Kriterien.

Supervised Machine Learning

Für die Bewertung von Dokumenten mit Hilfe von „Supervised Machine Learning“ werden einige der Dokumente vorher festgelegten Kategorien manuell zugeordnet. Anschließend wird eine Grenze zwischen den Kategorien berechnet, und alle übrigen Dokumente werden automatisch zugeordnet. Es kann eine Irrtumswahrscheinlichkeit für diese Zuordnung berechnet werden.

Ändern sich der Kriterienkatalog oder die Definition des True Positive, muss die Grenze neu berechnet werden. Generell gilt: Eine hohe Varianz in den analysierten Dokumenten wirkt sich negativ auf die Precision aus. Durch Unterteilung in Teilkorpora kann dem entgegengewirkt werden – die Unterteilung ist jedoch aufwendig und erhöht die Gefahr des „Overfitting“.

Stärken:

  • Klare Klassifizierung: Exakte Grenzen und Irrtumswahrscheinlichkeiten
  • Kein Anwendungsaufwand: Komplettes Korpus wird automatisch kategorisiert
  • Ansatzoptimierung: Irrelevante Kriterien können recht leicht entdeckt werden
  • Übersicht über den Bestand: Kriterien können auch einzeln betrachtet werden, z.B. „70% der Dokumente werden zu selten überprüft, um verlässlich zu sein.“

Schwächen:

  • Erstellungsaufwand: Trainingskorpus muss zusammengestellt (Expertenwissen!) und manuell von SMEs eingeordnet werden.
  • Korpusspezifisch: Grenze muss für jedes Korpus und nach jeder größeren Änderung des Korpus/der Definition von True Positive neu berechnet werden, nur einzelne Elemente sind möglicherweise übertragbar
  • Rechenintensiv: Machine Learning (ML) beansprucht viel Prozessorleistung

Unsupervised Machine Learning

Zur Analyse mit Hilfe von „Unsupervised Machine Learning“ muss ein Weg gefunden werden, wie der Computer dazu gebracht werden kann, die Unterschiede zwischen relevanten und irrelevanten Dokumenten selbst zu erkennen. Als Anhaltspunkte sollen die Kriterien aus dem Kriterienkatalog dienen. Es muss daher für jedes Kriterium eine Repräsentation gefunden werden, die ML ermöglicht. Beispiele: Was haben relevante Dokumente gemeinsam? Ähnlich hohe Review-Frequenz? Keine Personenkontaktdaten enthalten? …

Stärken:

  • Geringer Erstellungsaufwand: Kein Training nötig
  • Feine Klassifizierung: Unterscheidung nach Relevanzgrad/-typ/-grund/-bereich/…

Schwächen:

  • Hoher Konzipierungsaufwand: Erarbeitung einer angemessenen Repräsentation der Relevanzkriterien komplex, zeitaufwendig und braucht Erfahrung & Expertenwissen
  • Hoher Interpretationsaufwand: Die erkannten Gruppen müssen manuell interpretiert werden und ändern sich mit jedem Durchlauf
  • Keine Übertragbarkeit: Weder Kategorisierungsgrenzen noch Interpretation sind auf andere Korpora übertragbar
  • Rechenaufwand: Braucht noch mehr Leistung als Supervised Machine Learning

Fazit

Der Einsatz von Analytics bei der Bewertung von Dokumenten im Capturing ist immer dann empfohlen, wenn die Anzahl der zu sichtenden Dokumente hoch ist – und vor allem, wenn Dokumentation „historisch gewachsen“, ungewartet und somit unübersichtlich geworden ist. Die Voraussetzung ist stets, dass Dokumente in ausreichendem Umfang zum Zeitpunkt der Analyse zur Verfügung stehen. Um böse Überraschungen zu vermeiden, sollte vor dem Einsatz von Analytics prinzipiell geprüft werden, ob einer der folgenden Fälle vorliegt:

  • Geringe Anzahl von Dokumenten
  • Wenige Dokumente und dazu in verschiedenen Sprachen
  • Mischung aus unterschiedlichen Dokumenttypen: Text, Tabelle, Grafik, Ton oder Video

Ist dies nicht der Fall, ergeben sich daraus keine Grenzen für die computergestützte Analyse, sodass die passende Analytics-Methode gewählt werden kann.

Das Fazit aus der Betrachtung der drei verschiedenen Ansätze: Supervised Machine Learning ist in vielen Fällen der geeignetste Ansatz. Wegen der klaren Klassifizierung und des geringeren Bedarfs an Expertenwissen in der Anwendung im Projekt ist er dem Information Retrieval vorzuziehen. Der Aufwand, ein Trainingskorpus zusammenzustellen, ist immer noch deutlich geringer, als alle Dokumente per Hand zu prüfen.

Veröffentlichungen zum Thema IT Information Management:


Autor: avato (Isabell Bachmann)

Follow me

Like it? Share it! Spread the Word...

Sag uns jetzt deine Meinung per Kommentar!