Waha! Transformer 調査メモ
Beacon IT 社製
ETL ツール(プログラムなしで{データ抽出 = Extraction,変換・加工 = Transformation,ロード = Loading}ができるツール).
機能上の優位性
- DB 以外のさまざまなデータにも対応
- RDB: Oracle DB, SQL Server, DB2 UDB II
- テキストファイル.固定長 CSV だけでなく可変長にも対応.
- Excel ファイル
- XML
- メインフレームのSAMファイル
- 日本メーカー製メインフレーム独自の漢字コード(日立EBCDIKなど)にも対応.
- 数値形式も packed-decimal などバイナリのまま正しく扱える.
- 多次元DB
- ERP: SAP R/3, Salesforce CRM
- 各種 public cloud services のデータファイル群
- 出力先としては次のような製品・ツールも選べる
- 変換処理部分は,常識的なものはすべてそろっている.もちろん,条件分岐などの処理もあり.
面白い変換関数として次のようなものがある.さすが日本製といった感じ.
- 期末日を取得.
月末締めとかの処理が簡単にできそう.
- ひとつ前のレコードの値を取得.
RDBだと理想は集合演算のみとしたいところなんだけど,実際にはループ的な処理を書きたいときは多く,意外と重宝しそうな機能かも.(単にレコードに連番をふるとかは,この機能を使わなくてもできます.)
- 日本語の小文字を大文字(「っ」→「つ」など)に変換.
金融系の人にはおなじみの,銀行や証券で必要になる機能ですね.
- 濁音・半濁音を清音に変換(「が」→「か」).
名簿のふりがなで辞書順に並べたいときとかに必要になる機能.「小谷さん(こだにさん)」→「後藤さん(ごとうさん)」→「今野さん(こんのさん)」のように並べたい場合に必要になる機能.ほっとくと1文字目の「こ」と「ご」で優先されてソートされるので,「後藤さん」と「今野さん」が逆になります.[Linux/Windows の sort コマンドは collating sequence が正しく実装されているので,デフォルトで期待通りの動作になります. Linux では LANG=C sort x.txt,Windows の sort コマンドだと sort /L C x.txt と Locale を C にすると何をいっているか実感できます(Collation / Collating Sequence).]
- ビット単位のデータ取り出し.
たぶんメインフレーム対策? packed-decimal で区分コードを定義をしている場合など nibble (4ビット)単位で区画がきられている場合に必要になるのかも.他の方法もありそうな気もするけど.
- プログラミングは GUI 上で完結.
- デバッグに DB や Java/COBOL,SQL などのプログラミング言語の知識は不要
- 作成した ETL 定義から,ドキュメントを自動生成.処理フローや変換内容をドキュメント化できる.ドキュメントは HTML 形式で必要な箇所にクロスリンクがはられているため,閲覧・メンテナンスも容易.もちろん,処理フローは図示されて視覚的に理解できるものになっている.
Links
はたいたかし
http://exlight.net/
2014-01-24