「データ検査」ノード

「データ検査」ノードについてご説明します。

 

 Modelerでデータ分析をする利点の一つに「データ検査」ノードが使えることがあると思います。

このノードだけで対象とするデータの様々な情報を知ることができます。

データマイニングの現場でも下記のようなときに気軽に使うことができます。

・新しいデータに取りかかるときに、とりあえずその中身を知りたいとき

・複雑なデータ加工をした上で、想定外の欠損値や分布がないか手早く検証したいとき

 

商品A購買有無サンプルデータ.csv」に「データ検査」ノードを適用すると、下のようになります。

これにより、たとえば下記のようなことが確認できます。

・「週間の平均閲覧数」も「購買の平均単価」も0付近にピークがあり、右にいくほどなだらかに減少する分布となっている

・すべての変数において「有効」が1463であり、欠損値が存在しない。

 

「データ型」ノードの設定で、注目したい変数の「ロール」を「対象」にすることで、グラフを色分けすることができます。

 

下の例では、「商品A購買有無」が1なら赤、0なら青の色分けをしています。

 

これにより変数同士の関係性も、ある程度把握することができます。