Optimierung im IT Information Management
In vielen Unternehmen lässt sich der Zustand der IT Dokumentation mit wenigen Sätzen so zusammenfassen: Zahlreiche wichtige Informationen sind entweder nicht vorhanden oder nicht zugänglich. Wenn Informationen vorliegen, sind sie selten eindeutig und zuverlässig und im „Information Retrieval (IR)“ stößt man mit der Zeit auf vollkommen unübersichtliche Mengen an unterschiedlichen Dokumenten. Um diesem auch als „Digitale Deponie“ bezeichneten Zustand Herr zu werden, muss eine neuer Ansatz gewählt werden.
Grundsätzlich bieten sich zwei Methoden an, um auf die erforderlichen Informationen zu reduzieren: “Create“ und „Capture“. Das Unternehmen deckt seinen Bedarf an Informationen also entweder dadurch, dass die Information neu erstellt („Create“), oder in der „digitalen Deponie“ gefunden und erfasst werden („Capture“). Analytics unterstützt vor allem den Capture-Ansatz, auf den wir uns im Folgenden konzentrieren werden.
Die Bewertung im Capturing
Vorausgesetzt, Dokumente / Informationen sind in ausreichendem Maße vorhanden und werden auch bereitgestellt, ist die Analyse durch sequenzielles manuelles Durcharbeiten je nach Anzahl und Umfang kaum zu leisten. Kann Analytics hier eine Hilfestellung bieten? Ja – und zwar in der Bewertung, die wesentlicher Bestandteil des Capturing ist. Wir zeigen im weiteren Verlauf drei Modellansätze, wie Analytics die Bewertung unterstützt, und stellen ihre Stärken und Schwächen vor.
Zur Bemessung von Stärken und Schwächen der Modelle soll das Kriterium dienen, wie gut sie zur Beantwortung der folgenden Frage taugen: Wann ist ein Dokument im Sinne der Nutzung für ein Informationselement sehr gut brauchbar, brauchbar oder ungeeignet? In unserer Analyse ist ein Dokument genau dann relevant, wenn es relevante Informationen enthält.
Dabei bleibt der Aufwand, um das Dokument in Informationselemente umzuwandeln, im ersten Schritt unbeachtet. Analytics soll sich also zunächst auf die Bewertung („Evaluate“) beschränken und die Anzahl der Dokumente reduzieren, die dann in einem zweiten, automatischen / halbautomatischen / manuellen Schritt ganz oder in Teilen in ein Informationsportal einfließen.
Ergebnisse der automatisierten Bewertung
Was wird im ersten Schritt, der automatisierten Bewertung, geleistet? Mit Hilfe von Analytics wird automatisiert zwischen potentiell relevanten und irrelevanten Informationen unterschieden. Hier erwarten wir gerade in Umgebungen mit einer „historisch gewachsenen“, hohen Anzahl von Dokumenten eine entscheidende Unterstützung.
Am Ende liegt ein Korpus von Dokumenten vor, deren Inhalt zumindest in Teilen relevant sein kann und vollständig oder teilweise in das Informationsportal übernommen werden sollte.
Im darauffolgenden automatisierten / manuellen Schritt werden die Informationen aus den relevanten Dokumenten erfasst, an die gewünschte IT Information Management (ITIM) Struktur angepasst und zugeordnet. In einem weiteren Schritt werden die Dokumente durch Fachexperten (SMEs = Subject Matter Experts) auf inhaltliche Korrektheit geprüft, um an den verantwortlichen Information Manager zur Publizierung übergeben zu werden.
Analytics-Methoden
Um Informationen auf bestimmte Kriterien und zu überprüfen und zu bewerten, können grundsätzlich drei Analytics-Methoden eingesetzt werden:
- Information Retrieval
- Supervised Machine Learning
- Unsupervised Machine Learning
Information Retrieval
Beim sogenannten Information Retrieval (IR) wird ein Index erstellt, an den Anfragen mit unterschiedlichen Kriterien gestellt werden können. Der Query besteht nicht aus Suchbegriffen, sondern aus Werten der Kriterien. Diese sind im Kriterienkatalog festgehalten. Es können verschiedene Prioritäten gesetzt und Kriterien genutzt werden. So kann ein Dokument in einem Kontext schlecht abschneiden, in einem anderen jedoch relevant sein. Bei Änderung des Kriterienkatalogs muss der Index nur teilweise aktualisiert werden. Nach der Überprüfung werden die Informationselemente/Dokumente automatisch nach Trefferwahrscheinlichkeit geordnet.
Stärken:
Schwächen:
Supervised Machine Learning
Für die Bewertung von Dokumenten mit Hilfe von „Supervised Machine Learning“ werden einige der Dokumente vorher festgelegten Kategorien manuell zugeordnet. Anschließend wird eine Grenze zwischen den Kategorien berechnet, und alle übrigen Dokumente werden automatisch zugeordnet. Es kann eine Irrtumswahrscheinlichkeit für diese Zuordnung berechnet werden.
Ändern sich der Kriterienkatalog oder die Definition des True Positive, muss die Grenze neu berechnet werden. Generell gilt: Eine hohe Varianz in den analysierten Dokumenten wirkt sich negativ auf die Precision aus. Durch Unterteilung in Teilkorpora kann dem entgegengewirkt werden – die Unterteilung ist jedoch aufwendig und erhöht die Gefahr des „Overfitting“.
Stärken:
Schwächen:
Unsupervised Machine Learning
Zur Analyse mit Hilfe von „Unsupervised Machine Learning“ muss ein Weg gefunden werden, wie der Computer dazu gebracht werden kann, die Unterschiede zwischen relevanten und irrelevanten Dokumenten selbst zu erkennen. Als Anhaltspunkte sollen die Kriterien aus dem Kriterienkatalog dienen. Es muss daher für jedes Kriterium eine Repräsentation gefunden werden, die ML ermöglicht. Beispiele: Was haben relevante Dokumente gemeinsam? Ähnlich hohe Review-Frequenz? Keine Personenkontaktdaten enthalten? …
Stärken:
Schwächen:
Fazit
Der Einsatz von Analytics bei der Bewertung von Dokumenten im Capturing ist immer dann empfohlen, wenn die Anzahl der zu sichtenden Dokumente hoch ist – und vor allem, wenn Dokumentation „historisch gewachsen“, ungewartet und somit unübersichtlich geworden ist. Die Voraussetzung ist stets, dass Dokumente in ausreichendem Umfang zum Zeitpunkt der Analyse zur Verfügung stehen. Um böse Überraschungen zu vermeiden, sollte vor dem Einsatz von Analytics prinzipiell geprüft werden, ob einer der folgenden Fälle vorliegt:
- Geringe Anzahl von Dokumenten
- Wenige Dokumente und dazu in verschiedenen Sprachen
- Mischung aus unterschiedlichen Dokumenttypen: Text, Tabelle, Grafik, Ton oder Video
Ist dies nicht der Fall, ergeben sich daraus keine Grenzen für die computergestützte Analyse, sodass die passende Analytics-Methode gewählt werden kann.
Das Fazit aus der Betrachtung der drei verschiedenen Ansätze: Supervised Machine Learning ist in vielen Fällen der geeignetste Ansatz. Wegen der klaren Klassifizierung und des geringeren Bedarfs an Expertenwissen in der Anwendung im Projekt ist er dem Information Retrieval vorzuziehen. Der Aufwand, ein Trainingskorpus zusammenzustellen, ist immer noch deutlich geringer, als alle Dokumente per Hand zu prüfen.
Veröffentlichungen zum Thema IT Information Management:
- „Intelligente Information: 3 Bedingungen„: Intelligente Information? Woher kommt der Begriff, warum braucht man Intelligente Information und was ist hiermit gemeint?
- „Business Case ITIM (IT Information Management)“: Schneller, besser, preiswerter – warum sich ITIM immer rechnet
- „Simplify IT Information Management“: ITIM Problemstellungen & konkrete Methoden bzgl. „Simplify IT Information Management“
- „Was kann die Unternehmens-IT von Wikipedia lernen?„: Wikipedias methodischer Ansatz als Geheimnis für den Erfolg & Ableitungen für ITIM
Autor: avato (Isabell Bachmann)
- Der Weg vom Technischen Redakteur zum Informationsmanager - 29 Oktober 2019
- Warum du als Technischer Redakteur immer wichtiger wirst –Globale Trends und die Entwicklung in Deutschland - 31 Juli 2019
- Dein Meistertitel für dein IT-Integrationsprojekt – Warum du geschafft hast, wo Hunderte scheitern - 25 März 2019