可変長形式のテキストファイル
可変長形式のテキストファイルについて
ここでは、DataSpider Cloudが扱う可変長形式のテキストファイル(以下、可変長ファイルと呼ぶ)について説明します。
可変長ファイルでもっとも基本的な構造はレコード(record)です。レコードはテキストファイルの1行を表しており、行頭から行末(改行文字)までを1レコードと呼びます。各レコードは複数のフィールド(field)で構成されており、各フィールドは任意の文字列(デリミタ)で分けられています(図1)。
各フィールドにはそれぞれ型(文字列・数字・日付・タグ)を指定することができます。文字列・数字・日付はフィールドの整合性を調べるのに用いられます。
また、タグはレコード識別コードです。タグは文字列で指定します。タグを指定することで、可変長のトランザクション(ある文字列がある特定の位置に現れるまで行を繰り返し処理する)を正しく扱うことができます。
DataSpider Cloudでは、各レコードがすべて同じフォーマットである必要はなく、フィールドの数や型が異なっていても構いません。
また、レコードには出現回数を指定することができます。あるレコードが必ず3行現れるという場合に指定します。制限なし(0〜無制限)を設定することも可能です。
複数のレコードをひとまとまりとして扱うのがグループ(group)です(図3)。グループに含まれる各レコードは可変長ファイルに現れる順番に並んでおり、各レコードで指定されているフィールドの数や型が可変長形式のテキストファイルと完全に一致する必要があります。
レコードにおけるフィールドと同様に、各グループでそれらのグループを構成するレコードの順番や数が違っていても問題はありません。
また、各グループには出現回数を指定することができます。制限なし(0〜無制限)を指定することも可能です。