5 Grundregeln für ein gutes Metadatenschema

Ist es dir schon mal passiert, dass du etwas nachschlagen musstest – sagen wir, eine Betriebsvorschrift –, warst dir dann aber unsicher, ob die gefundene Information noch aktuell ist? Vielleicht hattest du Glück und zu dem Dokument gab es Metadaten, in denen auch ein Gültigkeitszeitraum oder Ähnliches vermerkt war. Ja, Metadaten sind schon praktisch! Und noch viel praktischer sind sie, wenn für alle Dokumente dieselben Metadaten in derselben Form erfasst sind; denn dann kann eine Suchmaschine gleich nach einem Dokument suchen, das noch gültig ist, oder du kannst mit einem Klick alle abgelaufenen Dokumente ins Archiv verschieben.

Solche Stapelverarbeitungen sind nur möglich, wenn den Metadaten eine feste, sauber definierte Struktur, ein Metadatenschema, zugrunde liegt. Warum das so wichtig ist und was bei der Entwicklung eines Schemas zu beachten ist, verrät dir dieser Artikel.

Weshalb brauche ich ein Metadatenschema?

Du willst die nervige, repetitive Kleinarbeit nicht selbst machen, oder? Das soll die Maschine für dich übernehmen. Aber Maschinen sind nicht gut darin, unstrukturierte Daten zu verarbeiten. Du musst ihnen eine feste Struktur liefern, aus der sie den Kontext und die Bedeutung der Daten erschließen können. Je genauer die Definition, umso leichter tut sich der Computer und umso besser sind die Ergebnisse. Ein Metadatenschema ist im Grunde nichts anderes als so eine Definition von Kontext und Bedeutung.

Das Schema hilft aber nicht nur Maschinen. Wenn klar vorgegeben ist, welche Daten wo stehen sollen und wie sie auszusehen haben, können Tipp- und Flüchtigkeitsfehler schon bei der Eingabe erkannt werden. Viele Metadaten können mit Hilfe eines guten Metadatenschemas sogar automatisch erfasst oder generiert werden.

Zusammengefasst heißt das: Ein Metadatenschema …

ermöglicht effektive automatisierte Datenverarbeitung und -verwaltung;
erhöht die Qualität der Metadaten und damit deren Wert;
verringert den Aufwand bei der Metadatenerfassung.

Was macht ein gutes Metadatenschema aus?

Das beste Schema ist dasjenige, das die Dateneingabe und -verarbeitung am meisten unterstützt und vereinfacht. Mit ein paar Grundregeln kannst du ein Schema entwickeln, das optimal zu deinen Daten und deren Verwendungszweck passt.

Liste mit abgehakten Kästchen - ein pinker Textmarker setzt Häkchen.

1. Den Anwendungsbereich bestimmen

Das Schema muss auf alle Daten passen, die zusammen verarbeitet werden – und nur auf diese.

Ein Schema, das auf alle vorhandenen Daten passt, ermöglicht, alle Daten mit denselben Automatismen auf einmal zu bearbeiten. Allerdings haben sehr verschiedene Daten häufig wenig gemeinsame Eigenschaften. Deshalb hat ein zu allgemeines Schema wenig Aussagekraft und Nutzen. Mach dir also Gedanken darüber, welche Daten gemeinsam verarbeitet (verwaltet, gesucht) werden. Diese sollten sich ein Schema teilen. Andere Daten brauchst du nicht zu berücksichtigen. Es spricht natürlich nichts dagegen, Teile des Schemas anderswo wiederzuverwenden.

2. Die richtige Auswahl der Felder

Lege nur Felder an, die du wirklich benutzen wirst, und mach sie so kleinteilig wie möglich.

Ein Metadatenschema besteht aus Feldern mit je einer festgelegten Information darin. Es lohnt sich, etwas Zeit in das Konzept zu investieren. Die Leitfrage lautet: Wozu sollen die Metadaten verwendet werden? Es ist Zeitverschwendung, ein Feld zu definieren, das gar nicht benötigt wird oder das meistens nicht ausgefüllt werden kann, weil an die Information nur schwer heranzukommen ist.

Zerlege die Informationen stets in möglichst kleine Bestandteile, denn es gilt: Zwei klar definierte Felder zusammenzuführen ist leichter und weniger fehleranfällig, als den Inhalt eines Feldes zu zerlegen. Prüfe also jedes Feld darauf, ob es nicht mehrere unabhängige Informationen vereint. Häufig benötigte Kombinationen von Feldern können in einem zusätzlichen Feld gespeichert werden – dieses sollte dann aber unbedingt automatisch ausgefüllt werden, damit keine Widersprüche entstehen.

3. Das Rad nicht neu erfinden

Verwende lieber ein Standardschema, das gut passt, als eine Selbstentwicklung, die perfekt passt.

In vielen Bereichen wird seit langem mit Metadaten gearbeitet. Die Chancen stehen also gut, dass auch für deine Sparte schon ein gutes Schema oder Austauschformat existiert. Einen Standard zu verwenden bringt dir eine ganze Reihe von Vorteilen. Daten, die von anderen zur Verfügung gestellt werden, kannst du sofort und ohne Anpassung verwenden, wenn dasselbe Standardschema verwendet wird. Für verbreitete Schemata gibt es Tools und Masken, die die Datenpflege noch weiter erleichtern. Und natürlich sparst du dir den Aufwand, selbst ein Schema zu definieren. Wenn also iiRDS, Dublin Core oder MODS alles bietet, was du brauchst, fährst du damit vermutlich besser als mit einem eigenen, allein auf deine Daten optimierten Schema.

4. So eng und exakt wie möglich

Beuge jeder unnötigen Varianz in den Daten vor.

Je weniger Auswahlmöglichkeiten und Freiräume dein Schema bietet, umso besser. Jede Alternative ist eine Gelegenheit, die falsche Wahl zu treffen. Lege genau fest, welche Information in welcher Form in ein bestimmtes Feld eingetragen werden kann. Datentypen, Auswahllisten und Reguläre Ausdrücke (eine Sprache zur Beschreibung von Zeichenketten) sind hier großartige Helfer. Sie vermeiden Tippfehler und sorgen dafür, dass dieselbe Information immer in der gleichen Form gegeben ist. Aber auch einfachere Mittel bringen schon einen großen Nutzen. Erlaube zum Beispiel für ein Feld „Schulnote“ nur Zahlen von eins bis sechs und lege fest, ob als Dezimaltrennzeichen ein Punkt oder ein Komma verwendet wird. Sogar eine kurze Erklärung, für welche Information genau das Feld gedacht ist, hilft schon.

5. Optional vs. obligatorisch

Alle Angaben sollten verpflichtend sein – es sei denn, ein wirklich guter Grund spricht dagegen.

Wenn du planst, Metadaten automatisch oder durch Experten zu erfassen, sollte das Ausfüllen aller Felder verpflichtend sein, von denen du weißt, dass sie auf alle Instanzen zutreffen. Jede Person hat einen Namen, jede Datei ein Format, jeder digitale Text eine Kodierung. Bleibt ein Feld leer, macht das die Datensätze uneinheitlich und dadurch schlechter zu verarbeiten.

Wenn die Metadaten hingegen von Leuten eingegeben werden, deren Hauptaufgabe nicht die Verwaltung dieser Daten ist, ist es vielleicht sinnvoll, nur das Ausfüllen der allerwichtigsten Felder verpflichtend zu machen. Zu viele Pflichtfelder bedeuten einen gewissen Zeitaufwand, was wiederum zu geringer Motivation führen kann und damit zu unüberlegten, fehlerhaften oder gar zufälligen Eingaben. In solchen Fällen musst du also zwischen zumutbarem Aufwand und benötigter Datenqualität abwägen.

Optionale Felder haben natürlich trotzdem auch bei automatischer Erfassung ihren Wert, nämlich immer dann, wenn auch das leere Feld etwas aussagt. Ein leeres Feld „Letzte Renovierung“ im Metadatensatz eines Hauses bedeutet zum Beispiel, dass es nie eine Renovierung gab.

Neben diesen 5 Grundregeln gilt natürlich noch die Regel der Umsetzbarkeit. Wenn etwa die technische Umsetzung des optimalen Schemas zu lange dauern würde, lassen sich Abstriche bei der Genauigkeit nicht vermeiden. Hast du auch schon mal vor diesem Problem gestanden? Oder liegt für dich die Hauptschwierigkeit ganz woanders? Lass es uns in den Kommentaren wissen! Metadatenschema fertig? Dann auf zum nächsten Schritt – dem Capturing! Oder vielleicht doch lieber Create?

Über
Letzte Artikel

Isabell Bachmann

IT Information Managerin bei avato consulting ag

Isabell Bachmann hat Digital Humanities und Philosophie an der Universität Würzburg studiert und arbeitet seit 2018 als IT Information Managerin bei der avato consulting ag. Ihre Schwerpunkte sind Daten- und Informationsmodellierung sowie KI-gestützte Textanalyse und -verarbeitung. Darüber hinaus beschäftigt sie sich mit der Erstellung und Verwaltung von IT Dokumentation, der Terminologiepflege und mit Gamification.

Letzte Artikel von Isabell Bachmann (Alle anzeigen)

5 Grundregeln für ein gutes Metadatenschema - 28 Mai 2019

Intelligent Information Blog

How to Create and Deliver Intelligent Information