
全社的にデータを活用することが不可欠となった昨今では、社内のデータ統合が求められています。基幹の業務システムから抽出したトランザクション・データを再構成して蓄積し、OLAP (OnLine Analytical Processing)やデータマイニングなどのビジネス・インテリジェンス・ツールを利用して情報分析と意思決定を行う、データウェアハウスの導入がよく見られるようになりました。しかし、経理システムや在庫システムなど、機能ごとに構築されていることが多い基幹系業務システムのデータは、システムごとにデータ形式が異なっているケースが多く、そのままの状態ではデータウェアハウスで分析することが困難です。このため、データを目的に合わせて分析できるように、顧客名や製品単位にデータを統合することや、異なるシステムに分散されているデータを変換して集約することが求められます。
従来、基幹システムのデータを抽出 (Extract) し、データウェアハウスで利用できる形に変換(Transform) し、分析用データベースにロードする (Load) という3段階の処理(ETL)を行うには、専用アプリケーションを手作業で開発する必要があり、その開発作業量がデータウェアハウス構築の工数の5割以上を占めると指摘されていました。そこで登場したのが、短期間で基幹システムのデータをデータウェアハウスで利用できるように変換できる「ETLツール」です。データの流れをGUIによってビジュアルに構築する機能や、データ形式を簡単に一括変換する機能、不正データを排除するデータ・クレンジングなどの機能が搭載されており、注目を集めています。
ETLツールの最大の特徴は、ハンド・コーディングによるアプリケーション開発と比較した場合、飛躍的に生産性が向上することです。IBMのETLツール「DataStage Enterprise Edition」を採用したアメリカの流通大手企業の事例では、アプリケーションを独自開発(ハンド・コーディング)した場合に見積もっていた2700人日という工数が、203人日にまで短縮されました。開発コストは日本円換算で2億円以上(想定コストの90%以上)も削減されたそうです。
ETLツールは、左図のようにデータの処理内容をブロック化することで、抽出・変換・ロードのステップを効率化しています。ツールに付属しているプリビルドされた処理のコンポーネントと、自社でカスタマイズしたコンポーネント、および社内で蓄積してきた既存のプログラムコードを組み合わせ、アセンブルすることで開発生産性を向上するとともに、既存資産を有効活用できるのです。

しかし、ただブロックを組み合わせるだけのETLツールでは、実用的なデータウェアハウスの構築という観点では限界があります。例えば、特定の日次バッチ処理を深夜0時から4時までの4時間で行っていた場合、並列処理ができないETLでは、データの増加に対応できず業務に支障を与えることになります。つまり、ETLツールには、拡張性を高めるための並列(パラレル)処理機能が必須なのです。
また、データウェアハウスの環境が、ハードウェアとデータベース、ETLツールの3要素であるとすると、ハードウェアの性能は、マルチCPUやクラスタリング、グリッドなどの技術によって、この数年で飛躍的に高まりました。データベースの世界も急速に並列化が進んでいます。一方ETLツールにも並列処理機能を装備した製品が登場していますが、ハードウェアとのシナジーを高めるためには、CPUを多数搭載できる大型サーバーによるスケールアップ構成だけでなく、ブレードサーバーのような安価なサーバーを水平方向に拡張するスケールアウト構成の両方に対応すべきです。これにより、お客様における選択肢が広がり、データウェアハウスの活用が拡大することが期待されます。
並列処理は、ビジネスのやり方も変革することができます。例えば、小売企業は売上情報から需要を分析し発注量を決めていますが、売上情報が夜間バッチで集計され翌日に判明するよりも、3時間に1回さらには10分に1回把握できることにより、より精度の高い発注を行うことが可能になります。これを実現するためには、より短時間で大量のデータを処理する並列処理が不可欠となります。また、一定期間蓄積されたデータを一括処理するバッチではなく、サービス・コンポーネントとして公開しリアルタイムに呼び出しできるようになると、これまでバッチ処理のために止めなければならなかったオンラインの取引を、24時間化することも可能になります。企業のアプリケーションのSOA化が進められていく中で、ETL処理のサービス化も期待されています。
IBMのDataStage Enterprise Editionは、データのパーティション化(含・動的な再パーティション化)による並列処理機能やデータベースとの並列インターフェース、スケーラブルなハードウェア環境を提供し、企業が取り扱う多種多様かつ大量なデータの管理を容易にします。同時に、エンド・ツー・エンドで提供されるメタデータ管理機能、高度なメンテナンス機能、開発環境、リアルタイム処理能力などにより、データウェアハウスの活用拡大はもちろん、将来のSOA化実現やシステム拡張に柔軟に対応できるデータ連携ハブとして、企業の戦略的なデータ活用を強力にサポートします。

本ページ内の事例は特定のお客様での事例であり、すべてのお客様について同様の効果を実現することが可能なわけではありません。
本事例中に記載の肩書や数値、固有名詞等は初掲載当時のものであり、閲覧される時点では、変更されている可能性があることをご了承ください。
IBM, IBMロゴはInternational Business Machines Corporationの米国およびその他の国における商標。
他の会社名、製品名およびサービス名等はそれぞれ各社の商標。 |
|