Bitte auf den Obermenüpunkt klicken!

Datenqualität

Datenbasierte Entscheidungen sind ein wichtiger Bestandteil der Digitalisierung in der Wasserwirtschaft. Tiefgehende Datenanalysen liefern dabei wichtige Informationen für operative und strategische Entscheidungen. So kann mithilfe der deskriptiven Datenanalyse die Frage „Was ist passiert?“, mit der diagnostischen Datenanalyse die Frage „Warum ist es passiert?“, mit der prädiktiven Datenanalyse die Frage „Was könnte passieren?“ oder mit der präskriptiven Datenanalyse die Frage „Wie soll gehandelt werden?“ beantwortet werden. Mit steigenden Möglichkeiten der Datenanalyse steigen jedoch auch die Anforderungen an die Qualität der verwendeten Daten.

Datenqualität ist gemäß der ISO 8000 definiert als „Grad, zu dem ein Satz inhärenter Eigenschaften von Daten Anforderungen erfüllt“. Es werden dabei drei unterschiedliche Qualitätskategorien unterschieden - syntaktische, semantische und pragmatische Datenqualität

Die syntaktische Qualität ist ein Maß für die Konformität von Daten bzgl. einer vorgegebenen Syntax, wie z.B., dass alle Daten in vorgegebenen Wertebereichen und Kategorien liegen sollen (z.B. pH-Wert zwischen 0 und 14), oder dass alle Daten eine eindeutige ID besitzen, zu der sie zugeordnet sind (z.B. Anlagenkennzechen). Ein hohes Maß an syntaktischer Qualität vereinfacht den Vergleich und die Verarbeitung unterschiedlicher Datenquellen, da nicht nur die Aufbereitungsschritte wie Vereinheitlichung der Aufzeichnungsschrittweite oder Filterung der Daten reduziert werden, sondern ebenfalls ein einheitlicher Zugriff gewährleistet ist.

Um sicherzustellen, dass gesammelte Daten reale Systeme hinreichend genau wiedergeben, sollte auf die semantische Datenqualität geachtet werden. Inwieweit werden alle Betriebsbereiche durch die gemessenen Daten abgebildet? Können einzelne Datenpunkte eindeutig bestimmten Betriebspunkten oder Messstellen zugeordnet werden? Sind Datenpunkte den richtigen Anlagenteilen zugeordnet oder wurden Messorte miteinander vertauscht? Antworten auf diesen Fragen sind eindeutig, wodurch die semantische Datenqualität messbar ist.

In der Datennutzung steht die pragmatische Qualität im Vordergrund. Die Daten sollen für den Nutzer verständlich, einfach zu interpretieren und aktuell sein. Das erfordert die direkte Einbeziehung des Nutzers in die Erfassung und Vorverarbeitung der Daten, indem mess- und überprüfbare Kriterien definiert werden. Diese sind z.B. Definition der erforderlichen Genauigkeit für jede Datenreihe, Abhängigkeiten zwischen den Datenreihen, Angabe der Messmethoden und deren Besonderheiten wie z.B. Querempfindlichkeiten, Angabe von Nutzungsbeispielen für jede Datenreihe, etc.

Die Betrachtung dieser drei Qualitätskategorien erfordert einen hohen Zeitaufwand sowie tiefgehendes Prozessverständnis und sollte nicht unterschätzt werden. Das Ergebnis ist eine verständliche, umfassende, qualitativ hochwertige Datenbasis. Ein Datenqualitätsmanagement (wie bspw. in DVGW GW 130 (M)) hilft dabei eine hohe und für die angestrebten Verwendungszwecke ausreichende Datenqualität zu erreichen.