解析の方式
検索のための言語の解析には、大きく分けて形態素とNグラムの2種類の方式があります。両方式にはそれぞれ、メリットとデメリットがあり相反するため、両立することが困難でした。
今までの検索エンジンは、片一方の方式しか選択できない、または両方選択できる場合でも索引を統合する作業などが発生していました。
ハイブリッド方式
IBM OmniFindは、世界で初めてハイブリッド方式を搭載しました。
ハイブリッド方式は、形態素方式とNグラム方式の両方のメリットを享受できる技術で、再現性と精度を同時に向上させ、より確実に情報をヒットさせることができます。1つの索引に形態素方式とNグラム方式の両方の索引を自動的に格納します。
索引作成のためのトークンを作成するアーキテクチャーは、検索エンジンにおける最も重要な技術であり、IBMはハイブリッド解析方式の特許を出願しています。
| 形態素方式 | Nグラム方式 | |
|---|---|---|
| 特長 | 辞書、文法に従って、キーワードの意味を解釈して索引を作成する。 | 文字列を文字数ごとに機械的に分割して索引を作成する。(2グラムの場合は2文字ずつ) |
| メリット | 再現性が高い (キーワード(検索語)に忠実にヒットする) |
精度が高い (キーワード(検索語)が含まれる文書は必ずヒットし、もれがない) |
| デメリット | 辞書の作成、保守が必要 | ノイズも大量にヒット |
| 索引の例 | 自動車/を/購入/する/ | 自動/動車/車を/を購/購入/入す/する/ (2グラムの場合) |
| 文章に含まれる語句 | 検索語 (キーワード) |
形態素方式 | Nグラム方式 | ハイブリッド方式 |
|---|---|---|---|---|
| ディジタル | デジタル | |||
| 東京都 | 京都 | (ヒットはするが「京都」を含む情報よりランクは低い) |
IBM、IBM ロゴ、ibm.comおよびOmniFindは、世界の多くの国で登録されたInternational Business Machines Corp.の商標です。他の製品名およびサービス名等は、それぞれIBMまたは各社の商標である場合があります。現時点での IBM の商標リストについては、www.ibm.com/legal/copytrade.shtml (US) をご覧ください。
他の会社名、製品名およびサービス名等はそれぞれ各社の商標です。
