データ品質とデータ分析
論文に掲載されているようなベンチマークデータセットの場合、所与の属性(列)を利用すれば良いですが、実際のデータ分析においては、そもそも分析にたりうる属性を持っているのかということが問題になります。
例えば、次のようなデータを考えます。このデータから、D列の値を予測するようなデータ分析を想定します。
この場合、A列〜C列の値が同じであるにも関わらず、D列の値にばらつきがあります。この場合、分析を行ってもD列の値を特徴づけることは困難です。
このように、データ分析を行うにあたり、分析に値するデータであるか判断することは重要です。では、「データ分析に値するデータ」かどうかはどのように判断すれば良いのでしょうか。
考え方の一つとして、「データ品質」があります。
データ品質はDMBOKやISO25012などにより様々な尺度が考えられています。
また、「データ品質管理ガイドブック」[1]ではデータ品質について、「データ品質を考える時には、利用目的に応じた適切なデータ品質を考えていく必要があります。」
つまり、目的によって無数のデータ品質が考えられるということです。
データ分析の文脈で考慮した時、上述のような例は「完全性(Completeness)」が満たされていないと考えられます。
ISO25012に基づく「データ品質管理ガイドブック」では完全性について、「データは目的に応じて抜け漏れなくあることで、詳細な分析をすることができるようになります。」とあり、その評価項目として「用途に応じて必要な項目が網羅されているか。」と記載されています。
これは、なかなか難しい問題です。
通常は業務要件に基づきデータが定義されますが、「D列の予測」という用途について、どのような項目があれば「必要な項目が網羅されている」と言えるのでしょうか。
このような問題について、どのようにデータ品質を定量的に判断することができるのか考えてみたいと思います。
1.デジタル庁. 「データ品質管理ガイドブック」.2022年3月31日. 最終アクセス 2022年11月15日.