本文へジャンプ


製品別技術情報 >IBM DB2 Content Managerで始めるコンテンツ管理 > 

IBM DB2 Content Managerで始める
コンテンツ管理

第5回 分散されたデータ・ソースに対する情報統合を実現するインフォメーション・インテグレーションの技術

レベル: 入門者向け
2006年6月30日(金)
1.情報統合(インフォメーション・インテグレーション)
コンテンツ管理システムを導入することによりコンテンツの統合管理を実現できるわけだが、異なる業務用途や異なるライフサイクルの総てのコンテンツを単一のコンテンツ・リポジトリーで管理することは現実的なアプローチとは言い難い。そのため、複数のコンテンツ・リポジトリーを効率的に分散管理することや既存のシステムを有効活用する必要性がある。これらのヘテロジニアスなコンテンツ・リポジトリーやデータを効果的に情報統合し、企業活動の活性化に役立てることもコンテンツ管理の重要な要素になる。WebSphere Information Integrator(以下Information Integrator)は、分散されたデータ・ソースに対する情報統合を実現するインフォメーション・インテグレーションの技術を提供している。(図1)
執筆者
執筆者 サミーのイメージ(トマトのような宇宙人のようなイメージ)
サミー

図1.Information Integration による情報統合

ヘテロジニアスなデータ・ソースの情報統合技術では、アグリゲーション(aggregation)とフェデレーション(Federation)と呼ばれる2つの手法がある。アグリゲーションは、データ・ソースのメタデータやデータを収集し、収集したデータの検索インデックスを作成し、インデックスを利用した統合検索手法である。アグリゲーションによる情報検索は、インターネットでのポータルサイトなどで多く利用されている技術であるが、企業内のデータ・ソースに対する情報検索では、コンテンツ・リポジトリーやリレーショナル・データベースなどのデータベースに対する情報収集と検索が重要になる。一方、フェデレーションは、ラッパーと呼ばれるデータ・ソースに対する接続モジュールを利用して、リアルタイムに各データ・ソースに対してアクセスを行う技術である。フェデレーションでは、各データ・ソースで異なったデータスキーマが定義されていても統一的なアクセスを実現するため、ニックネームを定義しスキーマのマッピングを行うことにより情報統合を行う。これらアグリゲーションとフェデレーションによる情報統合を実現するのが、WebSphere Information Integrator OmniFind Edition(以下OmniFind)とWebSphere Information Integrator(以下Information Integrator)である。

上に戻る

2.アグリゲーション:WebSphere Information Integrator OmniFind Edition
OmniFindは、リレーショナル・データベース、コンテンツ・リポジトリー、Webサイトを含む多種多様なデータ・ソースの情報を収集(クローリング)し、収集した情報の検索機能を提供する。情報収集をするクローラーは、スケジュール・ベースに指定したデータ・ソースのデータを収集し、収集したデータをパースしテキスト情報を抽出し後、インデックスを作成する(図2)。このためのクローラーは、データ・ソースからデータを収集するため、データ・ソースの構造を理解する必要がある。Webサイトのクローリングでは、Webコンテンツのリンク構造を巡回し、コンテンツを収集するためのリンクの深さ、同一ページの巡回の禁止など情報収集のためのアルゴリズムが組み込まれている。
 
図2.OmniFindアーキテクチャー

コンテンツ管理システムは、OmniFindのクローリング機能を利用して、コンテンツ・リポジトリーに保管されているコンテンツやそれに関連する多様なデータを網羅的に検索することができる。

上に戻る

3.フェデレーション:WebSphere Information Integrator
一方、Information Integratorは、多種多様なデータ・ソースに接続するためのラッパーを提供しており、ヘテロジニアスなデータ・ソースに対して単一のアクセスを可能にする。Information Integratorは、コンテンツ・リポジトリー向けのContent Editionとリレーショナル・データベース向けのInformation Integrator(図3)、メインフレームのデータベース向けのClassic Federationの3種類のエディションがある。これら3つのエディションを利用して多種多様なデータ・ソースの情報統合を実現する。
 
図3.Information Integrator アーキテクチャー

Information Integrator を利用してアプリケーションを開発すると複数のデータ・ソースを仮想的な単一のデータ・ソースに見せてアクセスを可能にする。この仮想データベースの技術を利用すれば、契約書や申込書などのドキュメントに関連するお客様情報、商品情報、在庫情報などの情報を複数のデータ・ソースから同時に取得することが可能になる。このように企業に分散して存在する情報に対してリアルタイムに情報アクセスを行い、必要な情報を取得することにより、カスタマーサービスの向上や競争力の強化に繋げることができる。近年グリッド・コンピューティングが注目を集めているが、Information Integratorはデータ・グリッドを実現し、管理されたコンテンツと企業におけるビジネス・データを統合する情報インフラストラクチャーを提供する。

ここまでコンテンツ管理で必要になる機能、DB2 Content Management ファミリー製品群について紹介をした。最後に、コンテンツ管理に関する技術動向や標準化動向について触れてみる。

JSR-170
リレーショナル・データベースの世界では、データモデルとアクセスのための照会言語が標準化され、ODBCやJDBCによりデータベース・ベンダーに依存しないアプリケーション開発を実現している。一方、コンテンツ・リポジトリーに対するデータモデルやアクセス手法の標準化は残念ながら存在していなかった。しかし、これに対応する標準として注目を集めているのがJSR-000170 Content Repository for Java Technology APIとJCR(Java Content Repository)である。JSR-170は、Javaのコンテンツ・リポジトリーAPIの標準で、JSR-170を利用すればコンテンツ・リポジトリーのベンダーに依存することなくアプリケーション開発が行える。また、JSR-170ベースのドキュメント管理アプリケーションやWebコンテンツ管理アプリケーションが登場すれば、アプリケーションとコンテンツ・リポジトリーの組合せによる選択肢が増え、コンテンツ管理システム構築におけるユーザーの利便性が向上すると言える。今後、JDBCやODBCと同様にJSR-170をベースにしたコンテンツ管理アプリケーションやコンテンツ・リポジトリーが増えることが期待される。

XML
一方、メタデータに関しても各種業界毎に標準化が進んでいる。これらのメタデータの標準化により、企業間におけるコンテンツ流通が促進される。メタデータの表記に関する標準としてXMLの利用が普及しており、コンテンツ管理システムにおいてもXMLデータのサポートが重要な要素になっている。

真正性の確保
e-文書法の施行により企業において保管が義務づけられているドキュメントの電子化保管が可能になった。これらのドキュメントは、改竄等の不正を防ぎ原本性を担保するため、電子署名とタイムスタンプにより真実性を確保する必要がある。企業においてコンプライアンス管理、リスク管理の観点からも管理しているコンテンツの真正性の確保は今後のコンテンツ管理の主要なテーマであり、コンテンツ管理における電子署名、タイムスタンプの利用が促進されると予想される。

JSR-170によるコンテンツ・リポジトリーの標準化、XMLコンテンツの流通、e-文書法による真正性を確保したコンテンツ管理システム(Trusted Document Management)などが普及すると期待される。

本記事は、株式会社メディアセレクト発行の月刊サーバセレクト2005年8月号に掲載されたものをもとに、補筆改訂したものです。

株式会社メディアセレクト

上に戻る




上に戻る

 
レベルマークについて

このページで紹介されている情報はレベル別にカテゴライズされています。

上級者向け
中級者向け
初級者向け
入門者向け

製品紹介

WebSphere Information Integrator

WebSphere Information Integrator OmniFind Edition