サンプルCSVデータのフォーマットチェック(Treasure Dataインポート)

フォーマットチェックの流れ

Treasure Dataのデータ連携設定が完了しましたら、問題なくインポートが行えるか、ビービット側でフォーマットのチェックを行います。

そのためのサンプルデータとして、数名分のユーザのインポートデータを記述したCSVファイルを、弊社の用意したTreasure Dataインポート用のS3パスにアップロードしてください。その際、ファイル名は半角英数字・ハイフン・アンダースコアのみとし、ファイル名の末尾は .csv.validate で終わるようにしてください(例: treasure_data_import_sample.csv.validate )。ファイル名の形式を誤りますと本番データとしてインポートされたり、あるいはチェック用のインポート自体が行われなかったりするため、必ず正しくご指定ください。

ユーザデータの抽出方法については Treasure Dataのヘルプ を、具体的なデータのアップロード方法については Treasure Dataのヘルプ や AWSのヘルプ 等をご参照ください。

※ビービット側では具体的なアップロード方法はサポート致しかねる点何卒ご容赦ください

作成するCSVファイルのフォーマットについては次項に詳細を記載しておりますので、そちらをご覧ください。

サンプルCSVデータをアップロードいただきましたら、正しいフォーマットに沿ってデータが記述されているか弊社にてチェックを行います。問題があれば弊社からお客様へデータの修正点をご連絡しますので、内容に沿ってCSVデータの記述方法を修正してください。

CSVのフォーマット

CSVファイルは以下のフォーマットに従って作成してください。

  • 文字コード:UTF-8 (BOMなし)
  • 改行コード:<LF> または <CRLF>
  • ヘッダ行:あり
  • 区切り文字:カンマ(,)
  • 値の記述形式:値を必ずダブルクォーテーション(")で囲み、値内のダブルクォーテーションは二重化("")する
    • 一般的なCSVデータでは各値を必ずしもダブルクォーテーション(")で囲む必要はありませんが、本データ形式ではダブルクォーテーションで囲むことが必須です
      • 空文字は "" と指定する必要があります
    • ダブルクォーテーションで囲われた値の中に別のダブルクォーテーションがあるとき、Treasure Dataの仕様により自動で \" (バックスラッシュ+ダブルクォーテーション)のようにエスケープされてしまい、USERGRAMでパースに失敗するケースがございます
      • このような値がある場合、データからダブルクォーテーションを取り除いたり、CSVファイルから行自体を除外したりできないかをご検討ください

また、各データ項目には以下の制約がございます。

  • タイムスタンプ
    • 全行で値が必須 ※空文字 ("") 不可
    • 指定したフォーマットに従った形式(UNIXTIME (秒) /UNIXTIME (ミリ秒) /yyyy/MM/dd HH:mm:ss/ yyyy/MM/dd HH:mm:ss z)
  • サービスID
    • 512文字まで
    • 値がない場合は空文字("")を入れる
  • Cookieの値
    • 全行で値が必須 ※空文字 ("") 不可
    • 128文字まで
  • ページURL
    • 全行で値が必須 ※空文字 ("") 不可
    • 3072文字まで
  • ページタイトル
    • 全行で値が必須 ※空文字 ("") 不可
    • 512文字まで
  • リファラURL
    • 3072文字まで
    • 値がない場合は空文字("")を入れる
  • ユーザエージェント
    • 全行で値が必須 ※空文字 ("") 不可
    • 256文字まで
  • 画像解像度
    • 3桁または4桁の数値を”x”で挟んで2つつなげたもの
      • 例: 1280x1024
    • 値がない場合は空文字("")を入れる
  • IPアドレス
    • IPv4形式
      • 例: 192.168.0.1
    • 値がない場合は空文字("")を入れる
  • ナビゲーションタイプ
    • 0(リンククリック・URL入力など通常の遷移)、1(リロード)、 2(戻る/進む)のいずれか
    • 値がない場合は空文字("")を入れる
※文字数のカウント方法について
文字の種類に依らず、全角も半角も 1 文字としてカウントします (例えば、 "あいうabc" という値の場合 6 文字と数えます) 。

CSVファイル例

例えば各データ項目とCSV列の設定を以下のように行ったとします。

  • 各データ項目とCSV列の設定例
    • タイムスタンプ:time
    • タイムスタンプフォーマット:UNIXTIME (秒) 
    • サービスID:td_sid
    • Cookieの値:td_pid
    • ページURL:td_url
    • ページタイトル:td_title
    • リファラURL:td_referrer
    • ユーザエージェント:td_user_agent
    • 画像解像度:td_screen_resolution
    • IPアドレス:td_ip_address
    • ナビゲーションタイプ:td_navigation_type

この場合、CSVファイルの内容は以下のようになります。

"time","td_sid","td_pid","td_url","td_title","td_referrer","td_user_agent","td_screen_resolution","td_ip_address","td_navigation_type"
"1567310404","1234567890abc","9eeeed71-8eb8-40f3-9a41-bd8b1f096474","https://example.com/index.html","テストページ","https://google.com","Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.116 Safari/537.36","1500x1000","64.233.160.0","0"

解決しない場合 問い合わせ 問い合わせ