「重複レコード」ノード

 

 「重複レコード」ノードについてご説明します。

 

例えば、アクセスログ解析を行う場合、ログデータには1人のユーザーの行動が複数のレコードに記録されています。その中から同じユーザーの行動を1つにまとめたい時に利用できます。

 

 

Ex. ログデータが全部で3700万レコードあるとします。その中で実際に利用しているユーザーの数は120万人です。ログデータには1人のユーザーの行動が複数のレコードに記録されていますが、重複するレコードを除くことによって120万人分のデータ(UU:ユニークユーザー数)をまとめることができます。また、ユーザーごとの購入回数など、個別のユーザーをキーにした集計も行うことができます。

 

1.[入力] タブの「可変長ファイル」ノードをダブルクリックしてストリーム上に置き、サンプルデータのsale.csvを開きます。

 

2.  [レコード設定]タブの「重複レコード」ノードをダブルクリックするとストリーム上で矢印がつながります。グループ化のキーフィールドを設定します。

 

3[出力]タブの「テーブル」ノードをダブルクリックするとストリーム上で矢印がつながります。

  

「テーブル」ノードを実行し結果を確認します。

 

先ほど同じID2回出てきましたが

 ID 1 / item A

 ID 1 / item C

 次を基準とする値を入れる

 →グループ内の最初のレコード

 を選択したので、ID1itemAのみ表示されています。

 


さらに!!

 

 ここまでの例ではID1つにつき、1つのitemしか表示されません、さらに各IDのすべてのitemを表示させたい場合、以下のような方法があります。

 

[出力]タブの「テーブル」ノードを実行し結果を確認してみましょう。

 

先ほど同じID2回出てきましたが

 ID 1 / item A

 ID 1 / item C

 次を基準とする値を入れる

 →値の連結

 を選択したので、ID1itemAとC

 の両方が表示されています。