サンプルCSVデータのフォーマットチェック(Treasure Dataインポート)
フォーマットチェックの流れ
Treasure Dataのデータ連携設定が完了しましたら、問題なくインポートが行えるか、ビービット側でフォーマットのチェックを行います。
そのためのサンプルデータとして、数名分のユーザのインポートデータを記述したCSVファイルを、弊社の用意したTreasure Dataインポート用のS3パスにアップロードしてください。その際、ファイル名は半角英数字・ハイフン・アンダースコアのみとし、ファイル名の末尾は .csv.validate
で終わるようにしてください(例: treasure_data_import_sample.csv.validate
)。ファイル名の形式を誤りますと本番データとしてインポートされたり、あるいはチェック用のインポート自体が行われなかったりするため、必ず正しくご指定ください。
ユーザデータの抽出方法については Treasure Dataのヘルプ を、具体的なデータのアップロード方法については Treasure Dataのヘルプ や AWSのヘルプ 等をご参照ください。
※ビービット側では具体的なアップロード方法はサポート致しかねる点何卒ご容赦ください
作成するCSVファイルのフォーマットについては次項に詳細を記載しておりますので、そちらをご覧ください。
サンプルCSVデータをアップロードいただきましたら、正しいフォーマットに沿ってデータが記述されているか弊社にてチェックを行います。問題があれば弊社からお客様へデータの修正点をご連絡しますので、内容に沿ってCSVデータの記述方法を修正してください。
CSVのフォーマット
CSVファイルは以下のフォーマットに従って作成してください。
- 文字コード:UTF-8 (BOMなし)
- 改行コード:<LF> または <CRLF>
- ヘッダ行:あり
- 区切り文字:カンマ(,)
- 値の記述形式:値を必ずダブルクォーテーション(")で囲み、値内のダブルクォーテーションは二重化("")する
- 一般的なCSVデータでは各値を必ずしもダブルクォーテーション(")で囲む必要はありませんが、本データ形式ではダブルクォーテーションで囲むことが必須です
- 空文字は "" と指定する必要があります
- ダブルクォーテーションで囲われた値の中に別のダブルクォーテーションがあるとき、Treasure Dataの仕様により自動で \" (バックスラッシュ+ダブルクォーテーション)のようにエスケープされてしまい、USERGRAMでパースに失敗するケースがございます
- このような値がある場合、データからダブルクォーテーションを取り除いたり、CSVファイルから行自体を除外したりできないかをご検討ください
- 一般的なCSVデータでは各値を必ずしもダブルクォーテーション(")で囲む必要はありませんが、本データ形式ではダブルクォーテーションで囲むことが必須です
また、各データ項目には以下の制約がございます。
- タイムスタンプ
- 全行で値が必須 ※空文字 ("") 不可
- 指定したフォーマットに従った形式(UNIXTIME (秒) /UNIXTIME (ミリ秒) /yyyy/MM/dd HH:mm:ss/ yyyy/MM/dd HH:mm:ss z)
- サービスID
- 512文字まで
- 値がない場合は空文字("")を入れる
- Cookieの値
- 全行で値が必須 ※空文字 ("") 不可
- 128文字まで
- ページURL
- 全行で値が必須 ※空文字 ("") 不可
- 3072文字まで
- ページタイトル
- 全行で値が必須 ※空文字 ("") 不可
- 512文字まで
- リファラURL
- 3072文字まで
- 値がない場合は空文字("")を入れる
- ユーザエージェント
- 全行で値が必須 ※空文字 ("") 不可
- 256文字まで
- 画像解像度
- 3桁または4桁の数値を”x”で挟んで2つつなげたもの
- 例: 1280x1024
- 値がない場合は空文字("")を入れる
- 3桁または4桁の数値を”x”で挟んで2つつなげたもの
- IPアドレス
- IPv4形式
- 例: 192.168.0.1
- 値がない場合は空文字("")を入れる
- IPv4形式
- ナビゲーションタイプ
- 0(リンククリック・URL入力など通常の遷移)、1(リロード)、 2(戻る/進む)のいずれか
- 値がない場合は空文字("")を入れる
CSVファイル例
例えば各データ項目とCSV列の設定を以下のように行ったとします。
- 各データ項目とCSV列の設定例
- タイムスタンプ:time
- タイムスタンプフォーマット:UNIXTIME (秒)
- サービスID:td_sid
- Cookieの値:td_pid
- ページURL:td_url
- ページタイトル:td_title
- リファラURL:td_referrer
- ユーザエージェント:td_user_agent
- 画像解像度:td_screen_resolution
- IPアドレス:td_ip_address
- ナビゲーションタイプ:td_navigation_type
この場合、CSVファイルの内容は以下のようになります。
"time","td_sid","td_pid","td_url","td_title","td_referrer","td_user_agent","td_screen_resolution","td_ip_address","td_navigation_type" "1567310404","1234567890abc","9eeeed71-8eb8-40f3-9a41-bd8b1f096474","https://example.com/index.html","テストページ","https://google.com","Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.116 Safari/537.36","1500x1000","64.233.160.0","0"