ecetio's blog

データ品質と異常検知について。すべては個人的見解です。

2022-11-01から1ヶ月間の記事一覧

簡単なFunctional Dependencies Violationの検知

functional dependencies(FDs)とは、データの列同士の関係において、ある列の組み合わせXがあった場合、別の列Aの値を一意に決定できることを言います。(X -> A) 例えば、「郵便番号」列があった場合、「住所」列の値が一意に決定できる場合、FDsであると言…

データ品質の定量的属性と定性的属性

前回は、データ品質の例として、「完全性」を取り上げました。 ecetio.hatenablog.com 「データ品質管理ガイドブック」[1]では、ISO25012を参考に、15の指標が記載されています。DMBOKやデータ品質管理ガイドブックでは、一応指標の定量的な計算について記載…

データ品質とデータ分析

論文に掲載されているようなベンチマークデータセットの場合、所与の属性(列)を利用すれば良いですが、実際のデータ分析においては、そもそも分析にたりうる属性を持っているのかということが問題になります。 例えば、次のようなデータを考えます。このデー…