Datenqualität: Wie geht das eigentlich?

Was bedeutet Datenqualität und wie kann man sie bestimmen bzw. umsetzen? Worauf muss man achten, wenn man hohe Datenqualitätsstandards einhalten will? Und überhaupt: Was bringt das eigentlich? Welcher konkrete Nutzen erwächst einem Unternehmen durch derartige Maßnahmen. Viele Unternehmer stellen sich diese Fragen, wenn sie auf das Thema Informations- und Datenqualität angesprochen werden. Die Antworten sind sehr unterschiedlich. Oft hört man:

„Dafür habe ich keine Zeit, im Grunde läuft es ja ganz gut, denke ich?“
„Darum kann ich mich jetzt nicht auch noch kümmern, es funktioniert ja auch so!“
„Man sucht halt zwischendurch immer mal nach Informationen. Unsere Sekretärin macht das schon.“

An dieser Stelle deshalb der Hinweis: Eine hohe Datenqualität spart Kosten und erhöht die Effizienz eines Unternehmens in hohem Maße – oder besser formuliert: Niedrige Datenqualität kostet in der Tat bares Geld. Es gibt schließlich einen Unterschied zwischen „funktioniert ganz gut“ und „funktioniert optimal“. Und eine Sekretärin (oder jeder x-beliebige andere Mitarbeiter) kann ihre/seine eigentlichen Aufgaben besser und schneller erledigen, wenn er nicht regelmäßig unter erhöhtem Zeitaufwand wichtige Informationen erst suchen muss.
Wenn ein Unternehmen ein Datenqualitätsprojekt plant, stellt sich oft die Frage, wie hochwertige Daten beschaffen sein müssen und was alles dazugehört.

Deshalb starten wir nun eine Blog-Serie zu den 15 Dimensionen und 4 Kategorien von Datenqualität, aufgestellt von der „Deutschen Gesellschaft für Informations- und Datenqualität e.V.“ (kurz: DGIQ e.V.). Dieses Schema gibt Aufschluss darüber, wie Daten und Informationen beschaffen sein und was sie leisten müssen, um als qualitativ hochwertig bezeichnet werden zu können. In jeder Folge wird eine Dimension näher beleuchtet und mit Beispielen ausgeschmückt, damit man sich ein genaues Bild davon machen kann, was der jeweilige Aspekt genau aussagt. Fragen und Diskussionen sind natürlich ausdrücklich gewünscht. Doch bevor es losgeht, werfen wir einmal einen kurzen, einleitenden Blick auf dieses Schema.

Die 15 Dimensionen von Datenqualität im Überblick

Was macht also eine hohe Datenqualität aus? Im Grunde ist es ganz einfach. Ein Blick auf die Abbildung zeigt: Die 15 Dimensionen von DQ (an der Innenkante des großen Rechtecks) lassen sich in vier Kategorien (die verschiedenen Farben, innerhalb des kleinen Rechtecks) einteilen. In jeder von ihnen wird ein bestimmter Bereich des Datenqualitätsnetzwerks betrachtet.
systemunterstützt, rot: Hier wird das System betrachtet, in dem die Daten gespeichert sind. Wie gut ist mein Firmennetzwerk? Hat jeder, der involviert ist, einen einfachen Zugriff auf alle Informationen?
inhärent, grün: Hier wird der Inhalt der Datensätze betrachtet. Wie verlässlich sind meine Daten?
darstellungsbezogen, gelb: Hier wird die Darstellung der Informationen betrachtet. Sind die Daten übersichtlich abrufbar?
zweckabhängig, blau: Hier wird die Nutzung bzw. Nutzbarkeit der Daten betrachtet. Kann ich aufgrund der Informationen aus meinen Daten vernünftige Entscheidungen treffen?

Wie die konzentrische Anordnung des Schemas jedoch bereits vermuten lässt: Die Höhe der Datenqualität ergibt sich aus der Addition aller Dimensionen und Kategorien. Nur wenn in allen Bereichen zufriedenstellende Ergebnisse erzielt werden, ist auch das Gesamtresultat, also die allgemeine Datenqualität, hoch. Dies wird in der Abbildung durch die Verwendung von jeweils gleich großen Formen (Drei- und Rechtecke) zur Darstellung verdeutlicht, um zu zeigen, dass allen Bereichen dieselbe Priorität eingeräumt wird.

So viel zum allgemeinen Überblick über die 15 Dimensionen von Datenqualität, in der nächsten Folge starten wir dann mit der Dimension „Zugänglichkeit“.

Benjamin Beck