Tab navigation
- IBMプロフェッショナル論文 1
- IBMプロフェッショナル論文 2- selected tab,
- IBMプロフェッショナル論文 3
- IBMプロフェッショナル論文 4
対話的テキストマイニングのためのソフトウェアアーキテクチャー
日本アイ・ビー・エム株式会社
東京基礎研究所
I&I.ナレッジ・インフラストラクチャー
副主任研究員
吉田 一星
[プロフィール]
2001年,日本IBM入社.テキストマイニング・システム IBM TAKMI Text Analysis and Knowledge Mining の設計・開発を担当.
データマイニングとテキスト解析の統合のための,ソフトウェアアーキテクチャーおよびアルゴリズムの研究に従事.
issei@jp.ibm.com
日本アイ・ビー・エム株式会社
東京基礎研究所
I&I.ナレッジ・インフラストラクチャー
副主任研究員
宅間 大介
[プロフィール]
テキストや音声など,非定型データを分析するためのインデックス技術を研究している.特に,テキストデータについては,実用的な分析シナリオに沿ったアプリケーション開発も担当し,企業に蓄積された顧客の声データから,商品の不具合や要望,FAQを見つけ出すためのテキストマイニング・ツールを開発した.
ta9ma@jp.ibm.com
ユーザーとの対話的テキストマイニングにおいて,応答速度に優れ,かつマイニングの特性を考慮したソフトウェアアーキテクチャーを提案する.テキスト文書の性質を活かしたマイニングを実現する上では,文書中の「高頻度キーワードの頻度分布(ランキング)」の計算コストや,数値データを扱うデータマイニング手法とテキスト解析との効率的な統合が課題となる.これに対し,ランキング計算のための索引構造,および,データの高速な操作に特化した層とマイニングの様々なタスクを記述する層とを分離する手法を提案する.実データを用いた検証の結果,ランキング計算時間を従来手法と比べて大幅に短縮するとともに,提案手法の一応用として検索エンジンの対話的マイニングへの統合の可能性を示した.
Key Words and Phrases:
テキストマイニング,高速化,アーキテクチャー,索引構造
- はじめに
- 対話的テキストマイニング
2.1 対話的テキストマイニングの概要
2.2 従来研究 - 高速化のためのアーキテクチャー
3.1 索引構造の設計と実装
3.2 索引API
3.3 マイニングアーキテクチャー - 評価
4.1 ランキング索引のパフォーマンス
4.2 検索エンジンとの統合について - おわりに
