掲載日 2008年6月6日
早稲田大学 理工学術院 山名研究室様は、現在、爆発的に増加しているさまざまな種類のデータを、「ただ存在しているだけのデータ」のまま終わらせるのではなく、有効に活用することで、「わたしたち人間の知識、生活に直接役立つ情報」にできる技術の構築を目標に掲げて研究されています。今回、文部科学省のリーディング・プロジェクトである「e-Society基盤ソフトウェアの総合開発」(平成15年度~平成19年度)の一環として「インターネット上の知識集約を可能にするプラットフォーム構築」に関する研究開発を行われ、研究用途としては世界でも例のない大規模なWebページの解析に取り組まれました。
※ 研究用途として収集されたWebページ数としては世界最大。2008年6月 早稲田大学調べ
お客様ニーズ

早稲田大学 理工学術院
教授 山名早人 氏
短期間のうちに大量のデータの解析を行うために
「インターネット上の知識集約を可能にするプラットフォーム構築」を実現するための研究開発について、山名教授は次のように語っています。
「現在、インターネットから情報を入手するためには、GoogleやYahoo!などの検索エンジンの存在が大きな影響を及ぼしています。検索エンジンありきで行動しているわたしたちの将来のインターネット利用方法として、次のステップにはどういうことが起きるのだろうかというテーマに対して、インターネット上のさまざまな情報を使って多方面から解析を行うことで、利用者にとって意味のある情報を抽出し、提供できるのではないかと考えました。Webページがもたらす情報を解析することで、さまざまな知識活用の糸口が見出せるのではないかと考え、このプロジェクトをスタートさせました」。
プロジェクトは世界中のWebページを収集する第1フェーズと、収集されたデータから意味のある情報を抽出する第2フェーズに分けられます。第1フェーズでは、全世界のWebページを効率よく収集するソフトウェアを開発し、144.5億のページ(URL)を収集、その中から日本語を含むサイト約150万サイトを検出されました。
第2フェーズでは、その収集したWebページの解析が行われますが、大規模な解析であるためいくつかの要素技術を組み合わせる必要があります。山名研究室様では、Webページの解析に「PageRank」を応用して開発したソフトウェアを使用し、ブログの検索には新たに開発した検索システムを利用されました。また、大規模なデータを効率的に解析するために、データを圧縮して解析するための技術を開発されました。
ここで、一連のプロセスを限られた時間の中で効率よく計算するために必要なコンピューターの能力が、今回の研究開発を遂行するにあたって大きな課題になりました。
まず、144.5億のWebページ内のリンクからWebサーバーを約1億3千万台抽出しました。そこから重複したサーバーなどを除外しても、研究対象とすべきサーバーが約3000万あることが分かり、その3000万のサーバーと関連するWebページを対象にさまざまな計算を効果的に実行するためには、128GB以上のメモリーを搭載したコンピューターが必要であることが分かったのです。
山名研究室様では、このコンピューターを調達するために、当初その条件を満たすコンピューターを3カ月(2008年1月~3月)の短期間でレンタルすることを計画されましたが、大規模なメモリーを必要とする特殊なマシンのため在庫もなく、また予算的にも折り合わないことが判明しました。
そこで、「Computing on Demand」(DoC、旧称DCCoD)を利用することを検討されたのです。
サービスに求められた条件
- 最低限128GBのメモリーが必要で可能であれば256GB
- 1カ月から3カ月の短期利用
- すぐにシステム解析を開始し継続する必要があり、システムを導入・構築する時間がない
- 短期間利用であるため、資産としての購入は出来ない
ソリューション
必要なコンピューティング能力を、必要なだけ、オンデマンドですぐに提供
短期間での大規模な計算を行う必要があった今回のプロジェクトでは、手段よりも結果を早く出したいという強いご要望がありました。必要なリソースを必要なだけ、必要な期間、そしてすぐに利用できるCoDは、山名研究室様の今回のご要望に適合していました。
「予算的にもスケジュール的にもレンタルでの利用が不可能だとわかったときに、IBMからCoDの提案を受け、わたしたちの要望にぴったりだと思いました」と山名教授は語られました、ご契約後、プログラムの動作を検証し、契約から5日後にはサービスが開始されました。
ご提供したサービス
- 256GBのメモリーを搭載したCPUリソース
- 2TBのストレージ
- Redhat Enterprise Server Ver.5導入サポート
【解析例】視点となるWebサイトから目的のサイトまでの最短ルート(GoogleとYahoo!JAPAN間のサンプル)

導入効果
サービス・インまでの期間を9割削減、さらにコストも7割削減。
CoDが推奨した解析環境を利用された効果について、山名教授は次のように語っています。
「CoDによって、誰も計算したことのない大規模な解析を、短期間で確実に行えて、非常に満足しています。予算次第ですが、今後の利用についてもぜひ検討したいと思います」
また、CoDを利用するのに適したアプリケーションについても、次のようにコメントを頂きました。
「購入やレンタルが難しいスペックを持つマシンを短期間で用意できるため、大量のデータ処理能力を一時的に必要とするような場合にはよいソリューションだと理解しています。つまり、アルゴリズムを検討するような計算ではなく、与えられたデータに対しての大規模な解析や高速な演算をさせるような用途に向いているのではないでしょうか」、「マシンを購入すると資産として所有することになり、後々のメンテナンスや破棄などもいろいろと大変だが、オンデマンドでのサービスならそんな心配もいらない。設置するスペースも、後々の電気代や空調費用も気にする必要はない。プログラムの動作をしっかり確認すれば、今後ますます利用する機会が増えていくだろう」
オフサイトにある豊富な計算資源をオンデマンドに利用する、従来にはない研究スタイルが基礎研究にとどまらず、大学内外、企業、国と柔軟に連携する山名研究室様にIBM CoDが採用された意義は非常に大きいものだといえます。
将来の展望
早稲田大学 理工学術院 教授 山名早人氏は次のように語ります。「IBMのCoDが提供する、豊富なメモリーを搭載したサーバー環境を研究に必要な期間だけ利用し、メモリー上にデータを展開して高速に計算する解析を短期間に実施できた。必要な時だけ必要なリソースを使うというオンデマンドでの使用を実感でき、計算資源を必要とする研究には適したサービスであると考えられる」
お客様情報
製品・技術情報
CoDとは?
CoDは、お客様が必要とするハイ・パフォーマンス・コンピューティング(HPC)環境を、お客様が必要な分だけ必要な期間に、ネットワークを通じて提供するオンデマンド型のサービスです。
CPU数やストレージ容量、利用期間など、お客様の希望されるシステム要件をご予約いただくことで、すぐにご利用いただけます。
従来のシステム導入後にも構築・運用コストが発生する構築型ソリューションにくらべ、CoDでは、資産を所有しないため、初期費用や電気代、空調費などの運用・管理・メンテナンスにかかる個別起用の負担がなく、オール・イン・ワンのサービスへの対価として経過処理することができます。また、オフサイトにあるIBMのグリーンリソースや、最先端技術を活用した最新のIBMサーバーをご利用いただくことで、お客様のオフィスでのCO2削減に貢献しながら、業務システムにおける繁忙期対策としての一時的なパフォーマンスの増強を実現します。
CoDは、金融や製造、学術研究など高度な計算や大規模解析を必要とするお客様に適したソリューションです。1週間という短期間のご利用から、1年以上の長期にわたるご利用まで、お客様の環境にあわせてご活用いただけます。

【Before CoD】購入、レンタルやリースの際に必要な検討項目
- 納期までの時間
- セットアップ、メンテナンス
- 減価償却と最新ハードウェアへの切り替えタイミング
- 稼働率、ROI、ROA
- 設置場所の空スペース
- 建物や床が重量に耐えられるかどうか
- 耐震、データのバックアップ
- 消費電力と空調の許容量
【After CoD】基本料金に含まれるもの
- CPUやストレージのリソース使用料金
- データセンターの電気代、スペース代、空調代
- データセンター&ファシリティー管理代
- セキュリティ(VPN接続、データセンタの物理的なセキュリティ管理)
- 24時間365日モニタリング
- ハードウェア・メンテナンス
- ヘルプ・デスク
- お客様担当者(IBM担当者)のアサイン
サービス
本事例中に記載の肩書や数値、固有名詞等は初掲載当時のものであり、閲覧される時点では、変更されている可能性があることをご了承ください。
事例は特定のお客様での事例であり、すべてのお客様について同様の効果を実現することが可能なわけではありません。
IBM,IBMロゴはInternational Business Machines Corporationの米国およびその他の国における商標。
