テキストマイニング(Textmining)とは、文章(テキスト)などの整理整頓されていない情報を分析し、人の力では発見が困難な事象を導きだし、その知見を素早く次のビジネス施策に反映することにより、ビジネスに大きく貢献する技術です。データマイニングは、いつどこで何がおこっているのかなどの現象を捉えるのに対して、テキストマイニング(Textmining)は、現象に加えて、その原因や将来おこりうる事象の予測など、幅広い目的に活用できます。
IBM Content Analyzer (ICA)は、日本の大和ソフトウエア開発研究所を開発拠点し、すぐれた日本語の処理機能と大量データを瞬時に分析する能力をもつ高度なテキストマイニング(Textmining) ソフトウェアです。
概略
IBMが提供するテキストマイニング(Textmining)のソフトウェア、IBM Content Analyzer(ICA)の概略をご紹介いたします。
コール・センターのコンタクト履歴、営業日誌、故障報告、品質情報、アンケートなど、企業にはさまざまなテキスト情報があります。
テキストマイニング(Textmining)の対象となる文書データは、『お客様の声』だけではありません。故障報告や品質情報から問題のある部品が急激に増えていることを特定したり、故障と使い方の因果関係などを発見したり、また、営業コンタクト・ログから優秀な営業員の特徴をとらえたり、アンケートの分析や、インターネット上の声からの評判分析など、さまざまな分野でテキストマイニング(Textmining)を活用できます。
- コール履歴分析
- 不具合(問題)発見
- 品質管理
- マーケティング分析
- コンプライアンス管理
- 営業ツール
- 研究開発
- インターネット評判分析 など
特徴
数百万以上のデータでも、さくさく分析
20年来の機械翻訳技術に裏打ちされた高度な相関値などを対話形式で分析。大量データに対しても優れた応答速度を実現します。独自の分析用インデックス(索引)を採用しており、大量のデータに対しても素早く応答するため、分析者の思考を中断することがありません。
大量テキスト・データ対象文書数の制限のために文書集合を細切れにすることなく、一括分析します。数百万以上を対象にした事例は数多くあり、将来の文書件数の増加を心配する必要がありません。

図1 : テキストマイニング(Textmining)の参考イメージ
テキストマイニング(Textmining)は言語処理機能が大切
テキスト分析の基礎となるのが言語処理機能です。正確で有用な分析の実現には高い精度の言語処理が必要となります。
長年の機械翻訳技術で裏打ちされた構文解析エンジンを搭載、高い精度の構文解析を実現します。その技術は数回に及ぶ学会受賞という形でアカデミックでも評価されている上、IBM Content Analyzer(ICA)は、2008年に米国の顧客サポート・サービス技術団体SSPAから「Innovationin Voice of Customer Award」を受賞しました。
言語処理にはオープンソース技術であるUnstructured InformationManagement Architecture(UIMA)インターフェースを採用。複数の業界やアプリケーションにまたがるシステム連携を可能にします。
相関頻度などの高度な分析機能
有益な知見のポイントは、変化、差分、比較に注目し、絶対頻度ではなく相対頻度に注目することが重要となります。IBM Content Analyzer(ICA)はさまざまな切り口から相対的な分析を行うことにより、問題や傾向の発見に優れた威力を発揮します。そのほかにもIBMの開発したユニークな技術を基礎とした有用な分析機能を豊富に装備しています。(特許取得技術あり)
- 相関値分析
相関値(全文書集合に対する分析母集団でのキーワードの割合比)を用いて特異点を発見 - 二次元マップ分析(2Dマップ)
2つの異なるカテゴリー項目間の相関関係を数値化 - 時系列分析
時系列での件数変化をグラフ表示 - トピック分析
出現件数増減傾向からトレンドを把握 - 時系列分析(増減分析)
特徴的なトピックやキーワードの増減傾向を把握
アラート機能
製品、サービスの問題や、クレームの早期発見を支援します。事象の頻度が急増しそうな場合、統計学的処理により急増する前の段階で自動的に検知して警告を発します。増加傾向にある未知の問題の気づきを得たり、特定の製品に偏って出現する不具合の抽出により問題を早期発見し、迅速な対応をすることで、企業の損失拡大を未然に防げます。
テキストマイニング(Textmining)導入事例:製品の不具合を早期発見し、340万ドルをコスト削減

図2 : アラート機能の参考イメージ
ダイナミックな対話型分析
分析対象となる集合の絞り直しが容易にできるのも、優れた特徴の一つです。これにより、分析の都度ダイナミックに対象集合を絞って分析作業を連続的に実施できるため、分析者の思考の流れが中断されず、知見の発見により早くたどり着きます。
動作環境(US)
2008年8月に製品名を IBM OmniFind® Analytics Edition(OAE)からIBM Content Analyzer(ICA)に変更しました。
IBM、IBM ロゴ、ibm.com、およびOmniFindは、世界の多くの国で登録されたInternational Business Machines Corp.の商標です。他の製品名およびサービス名等は、それぞれIBMまたは各社の商標である場合があります。現時点での IBM の商標リストについては、www.ibm.com/legal/copytrade.shtmlをご覧ください。
