2010年6月10日
外国語のテキストデータに隠れた知見を母語で発掘
日本IBM東京基礎研究所、言語横断テキストマイニング技術を開発
日本IBM(社長:橋本孝之、NYSE:IBM)は、海外でビジネスを行う企業が、外国語で記述された文書データを一つの言語で分析することを可能にする言語横断テキストマイニング技術を開発した、と発表しました。この成果は、2010年度人工知能学会全国大会(第24回)JSAI2010にて明日発表されます。
近年のグローバル化に伴い、海外でビジネスを行う企業は、「お客様の声」、「社内文書」、「特許文書」など様々な文書データを、日本語だけではなくビジネスを行う各国の言語で記述された形で蓄積する機会が増えています。今後企業がより効果的な意思決定を行って行く上で、外国語で記述された膨大な文書データから経営に役に立つ情報を検出する需要は高まっています。
膨大な文書データを活用する技術には「検索」、「分類・整理」、「知識発見」、という異なるレベルの技術が存在し、その目的も言語処理の内容も異なってきます。IBMのテキストマイニング技術では、「知識発見」を目的としています。今回日本IBM東京基礎研究所が開発した言語横断テキストマイニング技術は、IBMのソフトウェア製品であるIBM
Content Analytics*にも採用されている同研究所が開発したテキストマイニング技術、TAKMI®に、やはり同研究所が開発した言語や分野に依存しない訳語対抽出手法を組み合わせています。
IBMの研究員が開発した訳語対抽出手法では、解析したい概念が母語のデータにおいて出現する文脈を解析し、一般的に使用されている辞書を活用して出現文脈を母語から他言語に変換した上で、他言語中の似たような文脈で出現する表現を訳語の候補として抽出します。データを全て翻訳するのではなく、解析したい概念の訳語のみをデータ中の文脈に基づいて抽出するため、一般的な辞書には掲載されていない特殊な表現や分野特有の表現であっても、母語と他言語の対応を推定することができ、分布の変化や偏りを捉える上で有益であることが実験結果からも実証されています。解析担当者は専門分野に関する知識を持っていれば、他言語の知識がなくても未知の言語の文書データを分析することができます。
例えば、世界中に設置されたコールセンターへ日々入ってくるお客様の声。多くの場合、各オペレーターは様々な文体でお客様の声をお客様が話される言語でデータベースにインプットします。基本的に同様の製品を各国で販売している場合、その製品について分析を行う担当者の母語以外の言語で蓄積されているデータを母語に翻訳することなく分析し、新たな知見を得ることが理想的です。IBMの言語横断テキストマイニング技術は、たとえば日本語といった一つの言語で定義された分析対象表現に対応する可能性の高い表現を、IBMが開発した訳語対抽出手法を使って他言語のデータから自動的に探し出し、日本語で分析します。企業はその結果をもとに、分析対象表現の出現傾向を把握し、特定の製品への偏りや急増傾向を捉えることで、まだ把握していない事実や問題点を早期に発掘し、調査のきっかけをつかんだり、適切なアクションにつなげることが可能となります。
また本日、言語横断テキストマイニング技術を開発した日本IBM東京基礎研究所のテキストマイニング研究チームは、社団法人人工知能学会より現場イノベーション賞を授与されました。文章からの情報抽出やマイニングのためのインデックス構造などの研究開発とともに、製造、金融、保険、放送、通信、小売など様々なビジネス分野への応用に対して、その業績が認められたものです。
日本IBM東京基礎研究所のテキストマイニング研究チームは、社内外に存在する膨大な情報をビジネス分析に活用し、より確かな意志決定支援や新たなビジネス、サービスの創造を促進する「BAO(ビジネス・アナリティクス・アンド・オプティマイゼーション)」に貢献する技術の研究に取り組んでいます。その技術は、IBMのソフトウェア製品、IBM
Content Analyticsやお客様へ提供するソリューションに活かされています。
*旧称 IBM® Cognos® Content Analytics (CCA)
http://www.ibm.com/jp/software/data/search/textmining.html
IBM、IBM ロゴ、ibm.com、およびCognos、TAKMIは、世界の多くの国で登録されたIBM Corp.の商標です。他の製品名およびサービス名等は、それぞれIBMまたは各社の商標である場合があります。現時点での IBM の商標リストについては、http://www.ibm.com/legal/copytrade.shtml(US)をご覧ください。