ecetio's blog

データ品質と異常検知について。すべては個人的見解です。

データ品質の定量的属性と定性的属性

前回は、データ品質の例として、「完全性」を取り上げました。

ecetio.hatenablog.com

「データ品質管理ガイドブック」[1]では、ISO25012を参考に、15の指標が記載されています。DMBOKやデータ品質管理ガイドブックでは、一応指標の定量的な計算について記載がありますが、形式的な計算が多く、データの実態を反映するのは容易ではありません。

このような中で、どのようにデータ品質を定量的に計算できるかを考えてみます。

多くの指標は定性的観点を反映していますが、定量的に把握できうる指標としては次のようなものがあります。

正確性(Accuracy)
データの基本は正確であることです。データの正しさを以下の点に着目して評価します。

完全性(Completeness)
データは目的に応じて抜け漏れなくあることで、詳細な分析をすることができるようになります。データが完全であることを以下の点に着目して評価します。

一貫性(Consistency)
データには整合性や一貫性が必要で、データ内の項目や値に矛盾があるとエラー処理をする必要があります。データに矛盾がないことを以下の点に着目して評価します。

データ品質管理ガイドブック[1]より

このような指標を具体的にどのように計測するかを考えていきたいと思います。

 

 

1.デジタル庁. 「データ品質管理ガイドブック」.2022年3月31日. 最終アクセス 2022年11月15日.

github.com