|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ポータル・サイトや Web サイトを Web クローラーが効率的にクロールできるようにする |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
レベル:中級 原文の掲載:2007年5月8日
[編集者のメモ: この記事で取り上げた設定作業は、US環境以外での検証を行っていません。この記事は、US環境以外で動作を保障するものではありません。]
はじめにWeb クローラー開発者とサイト管理者がこれまで多くの時間を費やして取り組んできたのは、Web サイト上でのクローラーの動作を最適化するとともに、その Web サイト上でホストされている必要な情報を検出できるようにするという課題でした。そしてホスティング・サーバーにあまり大きな負荷をかけないこと、不必要なアクションをトリガーしないこと、またその Web サイトを適切な間隔で繰り返しクロールできるようにすること、が理想的です。 Sitemaps 0.90 プロトコル (「参考文献」の Sitemaps.org を参照) を利用すると、Web サイト管理者は、クローラーが Web サイトを安全かつ効率的にクロールするために必要な情報をクローラーに提供できます。また、このプロトコルは XML などの Web 標準に依存しています。 一言でいえば、このプロトコルを利用するために必要なことは、クローラーが取得できるようなページ参照 (URL) のリストを生成することです。このリストは、Sitemaps 0.90 に準拠した単純な XML ファイルに保存されます。この XML ファイルには、それぞれの URL に 1 つのエントリーが対応しており、必須入力は URL 参照のみです。オプションとして、各 URL に対して追加情報 (最終変更日、更新頻度、有効期限、優先順位の値など) をリストすることもできます (優先順位の値は、その特定の Web サイトのみに関連するそのページの重要性を指定します)。Sitemap XML の作成が完了した後で、このプロトコルをサポートするサイトのサイトマップの URL を送信すると、Web クローラーがこのサイトマップを利用できます。現在、Google と Yahoo! は既にこのプロトコルをサポートしています。 サイトマップが登録されると、検索エンジンの Web クローラーは、サイトマップ・ファイルで提供された情報を利用して、どのページ・セットをクロールすべきかを特定します。さらに、更新頻度情報を使用して、今回はどのページを処理すべきかを判断します。このようにサイトを効率的にクロールできるため、ページへの GET 要求の数が最小限に抑えられ、ホスティング Web サーバーとクローラーの双方の負荷が軽減します。 Sitemaps 0.90 プロトコルが全体として実現するクロール効率の向上は、通常のサイトマップ参照とロボットによる指示の組み合わせでは実現できません。 Sitemaps 0.90 プロトコルが全体として実現するクロール効率の向上は、通常のサイトマップ参照とロボットによる指示の組み合わせでは実現できません。
Sitemaps 0.90 についてSitemaps 0.90 は単純で直観的に理解できるので、 Web マスターは、Web クローラーが Web サイトを効率的にクロールできるよう、適切なレベルの情報を提供できます。Sitemaps 0.90 は、「ハイパーリンクをたどることで Web サイトをクロールする」古い方式に比べると、大きく一歩前進です。現在、一定レベルのクロール効率を確保するために多くの検索エンジンで相変わらず推奨されている方法は、クローラーが利用できるように HTML ベースのサイトマップ・ページを用意する方法です。しかし、今日のように Web サイトが成長し続け、複雑化の一途をたどる状況では、これは最終的な解決策とはいえません。Sitemaps 0.90 はさらに一歩先へ進んでおり、コンテンツあるいはページに関する情報 (ページの更新頻度、ある特定のページが変更されたかどうか、など) を Web サイトによって指定できます。このような情報が指定されなければ、クローラーは必要な情報を独自に判断して保存しなければなりません。ここで触れておかなければならない重要な点は、Sitemaps 0.90 プロトコルは Web 標準に依存していて、既存の概念を再利用していることです。このサイトマップ・プロトコルは、構造が単純な直観的に理解できる XML ファイルに基づいています。この XML ファイルは、URL のリストと、URL に関連するメタデータから構成されています。この情報は、Web クローラーがどのページ・セットをいつクロールすべきかを判断する上で役立ちます。Web マスターまたはその Web サイトの責任者がアドバイスや情報を提供します。 Sitemaps 0.90 生成ツールは、既にインターネット上にオープン・ソース・ソフトウェア、フリーウェア、およびシェアウェアとして登場しています。これは、Sitemaps 用のベータ・プログラムが Google によって実行されているためです。このようなオープン・ソース・ツールの一例が、Sitemaps 0.90 ジェネレーター・ツールです。このようなスタンドアロン・ツール以外でも、Web コンテンツを管理および生成するシステムは、Sitemaps 0.90 のサイトマップ・ファイルを自動的に作成でき、更新が可能です。また、Web 開発ツールは、「サイトマップとして保存する」機能を提供できます。 また、Sitemaps 0.90 は、さまざまなソースからサイトマップ・ファイルへ入力できるという点で、非常に柔軟です。Sitemaps 0.90 プロトコルでは、クローラーに Sitemaps 索引ファイルも提供できます。いうまでもなく、サイトマップ索引ファイルの最大の利点は、非常に大きな Web サイトのサイトマップ・ファイルを複数の小さな部分に分割できる点です。また、サイトマップ索引ファイルを使用して、複数のコンテンツ・ソースあるいはコンテンツ配信アプリケーションから生成された複数のサイトマップを組み合わせ、1 つのサイトマップ (索引) ファイルを作成することもできます。 IBM WebSphere Portal のような製品にとって Sitemaps 0.90 が重要である理由は、ポータルの持つ性質にあります。ポータルでは動的コンテンツを生成することができます。その結果、ポータルが生成する複雑な URL では、クローラーがクロールする Web 空間を定義するために、robots.txt のような標準的なクローラー・ディレクティブを使用することができません。WebSphere Portal の最新リリースで提供されている改善されたクロール機能と併せて Sitemaps 0.90 を利用することで、サイト管理者は公開ポータル・サイトでのクロール動作の制御方法を大幅に改善することができます。 以下の各セクションでは、Sitemaps 0.90 プロトコルの詳細について説明します。 Sitemaps 0.90 の XML ファイル リスト 1 は Sitemaps 0.90 ファイルの一例です。このファイルは小さな Web サイトの 4 つのページをリストしていて、その 4 つのページそれぞれにすべての必須属性が指定されています。 リスト 1. 必須属性
次の表は、リスト 1 に示した必須入力を説明したものです。 XML タグの説明
Sitemap プロトコルの XML スキーマの詳細は、「参考文献」に挙げた Sitemaps 0.90 プロトコルのページを参照してください。 クローラーがサイトマップにアクセスできるようにする サイトマップ XML ファイルを作成し、それを Web サーバーから利用できるようにすれば、この機能をサポートする検索エンジンが提供する URL 登録サービスを使用して、そのファイルを送信できます。これは、HTML ベースの従来のサイトマップ (あるいはホーム・ページ) を登録する方法に相当します。この記事の公開時点で、Google と Yahoo! の両方が、それぞれの登録サービスでこのプロトコルをサポートしています。 メモ: Web サーバー上のサイトマップ・ファイルの登録場所に関しては、別のルールに従う必要があります (詳細は「参考文献」に挙げたサイトマップの場所についての情報を参照してください)。 下記は、サイトマップ自体にリストされた URL に対して有効なサイトマップの場所です。
下記は、無効なサイトマップの場所の登録例です (上記と同じサイトマップの例を使用すると仮定します)。
サイトマップの場所に関する詳細は、「参考文献」に挙げた Sitemaps 0.90 プロトコル のページを参照してください。
WebSphere Portal V6 での Sitemaps 0.90 プロトコルのサポートIBM Search Sitemap Utility ポートレットで Sitemaps 0.90 に準拠したサイトマップを生成する IBM Search Sitemap Utility ポートレットは、WebSphere Portal Catalog(US) で入手することができます。以下のセクションでは、このポートレットの機能の概要を説明します。 IBM Search Sitemap Utility ポートレットは、WebSphere Portal で提供されている Sitemap ポートレットを拡張した機能であり、公開ポータル・ページを Sitemaps 0.90 に準拠した XML ファイルとしてエクスポートできます。図 1 は、このポートレットのメイン・ビューを示しています。
IBM Search Sitemap Utility ポートレットでページとポートレットを表示する IBM Search Sitemap Utility を使用して、ポータルの中にあるページとポートレットのリストを見ることができます。適切な管理権限を持ったユーザーは、ポートレットの各ページに表示されるページとポートレットの数を設定することができます。デフォルトでは、1 ページ当たり 50 個のエントリーが表示されます。ページとポートレットはツリー階層構造として表示されます。 メモ: ポータルのポートレットとページの両方を表示したい場合には、IBM Search Sitemap Utility ポートレットをそのように構成する必要があります。 図 1. IBM Search Sitemap Utility ポートレットのメイン・ビュー
メイン・ビューから、下記のアクションを開始することができます。
Sitemap Utility ポートレットのためのプリファレンスを編集する 編集モードを使用してポータル・セクションをフィルタリングします。 「Filter Portal Sections」を選択して、ポータル・ページのフィルタリングを有効にします。
図 2. IBM Search Sitemap Utility ポートレットの編集ビュー Web サーバーから Sitemap XML ファイルにアクセスする それぞれのロボットがクロールする対象となるすべての関連ページを含むようにサイトマップを設定した後、その情報を、Sitemaps 0.90 に準拠した XML ファイルとして、ファイル・システムにエクスポートすることができます。 図 3. Sitemap XML をエクスポートする
Sitemap XML をエクスポートするためには、Export Search Sitemap ポートレットの最上部にあるアイコンをクリックします。ブラウザーの「Open file」ダイアログ・ウィンドウが表示されるので、ここで実行するアクションを指定します。「Save to Disk」をクリックし、次に表示されるダイアログ・ボックスで、Sitemap XML ファイルを保存するための適切な場所を選択します。最後のステップとして、クローラーが Web サーバーからこの XML 文書にアクセスできるようにします。そのための最も簡単な方法は、Web サーバーが管理する適切なフォルダーにこのファイルをコピーすることです。このファイルを、Web サーバーの文書ルート・フォルダーに保存します (詳細と制限については、「参考文献」に挙げた サイトマップの場所 についての情報を参照してください)。
将来の展望この記事では、Web クローラー開発者とサイト管理者の双方にとっての Sitemaps 0.90 プロトコルの重要性と利点について、概要を説明しました。最近の Web サイトは複雑化の一途をたどり、従来のクローラーでは対応が困難な技術が多く使用されるようになっています。これは Web クローラーが今日直面する最大の課題の 1 つであり、Sitemaps 0.90 はこの課題に重点的に取り組んでいます。例えば、Web ページ上で JavaScript を使用すれば、ユーザーにとって役立つ優れた処理を実行できます。しかし、クローラーは JavaScript を認識しないため、これを無視します (そのように設計されています)。そのため、クローラーは JavaScript から情報を取得できません (これも想定済みの事態です)。 今日、JavaScript などの技術を使用することは、Web ページ上でのクロール動作の効率の低下を受け入れることを意味します。Web マスターはこの選択を意図的に行う必要があります。一方、Web クローラー開発者は、複雑化の一途をたどる Web ページに対応可能な新しいクロール手法を作成する作業を行います。多くの場合、ページの複雑化は、クローラーの処理速度にも影響を及ぼします。このような状況が続くと、クローラーは、クロール動作のパフォーマンスを許容限度内に維持しながら、常に増加し続ける大量の情報を収集しなければならないという二重の圧力にさらされます。 インターネット上でも大規模な Web サイト上でも、ナビゲーションの基本的な手段としての検索の重要性は増大し続けています。したがって、コンテンツや情報を提供するアプリケーションやソリューションは、検索に関する一般的なルールに準拠している必要があります。また、利用可能にするコンテンツや情報を検索可能な情報の形で提供することも重要です。Sitemaps 0.90 はこのような目標への重要な一歩であり、複雑で動的な最近の Web サイト上でもクローラーが単純かつ効率的にクロールできるようにします。 近い将来には、「サイトマップとして保存する」というオプションがコンテンツ管理システム、文書管理アプリケーション、ニュース・フィードなどで提供されることが期待されています。このようなオプションと、作成されるサイトマップを適切に編集できる機能を組み合わせることで、Web クローラーの効率性を大幅に向上させて、クローラーに適切な情報を短い時間で検出させることができます。また、今日の既存の方法では利用できないコンテンツ・ソースからもクローラーが情報を取得できるという点も重要です。
リソース学ぶために
製品や技術を入手するために
議論するために
筆者について(原文のまま)
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||