本文へジャンプ


わかる!パーベイシブ・コンピューティング

第3回 「パーベイシブ・コンピューティング音声編」

 
レベル: 初級者向け
2005年07月06日(水)

パーベイシブの連載第3回です。今回は、音声という観点から見たパーベイシブ・コンピューティングについて、製品のご紹介と将来像をお話させて頂きたいと思います。
インデックス
IBMの音声ミドルウェア製品一覧
WebSphere Voice Server5.1.xとは?
WVSの新しい特徴
VoiceXML2.0
最後に
各種情報源

IBMの音声ミドルウェア製品一覧
前回までの「わかる!パーベイシブ・コンピューティング」の中で既に述べられていますように、パーベイシブ・コンピューティングの代表格であり、もっとも一般の方にもなじみがあり、しかも古くから使われている機器として電話があります。電話と言えばかつては、固定電話のことでしたが、現在ではその種類は、
  • 固定電話
  • 携帯電話
  • IP電話
  • PHS
と言ったように多様な電話の種類があります。
コンピューターと電話は、通信回線という手段で結びつくのは非常に早く、また音声と電話は当初からつながっていました。コンピューターが人の音声を認識するというのはSFの世界だったのですが、「ViaVoice」と言う音声認識ソフトウェアに代表されるように人の話す言葉をコンピューターによって口述筆記(ディクテーション)する事は、1990年代後半以降、実用の領域に入ってきました。IBMで扱っている音声ミドルウェア製品一覧には、下記の図のような製品ラインアップがあります。

図1
図1

このうち今回は、主にWebSphere Voice Server(以下WVS)を中心にその概要を述べてさせて頂きます。
WVSを電話で使用して電話音声を認識させるには上記の図1の中にあるWebSphere Voice Response(通称WVR)に代表されるIVR(Interactive Voice Response 以下IVR)という製品が必要になります。IVRというのは、コールセンターなどでかかってきた電話に対してあらかじめ録音された音声を使用して自動案内を行うためのミドルウェアです。つまり電話を掛けてきたお客様から見るとPBXの向こう側にいるミドルウェアになります。
電話での自動化を考えた場合IVRがいることが前提条件であり、その先に音声認識・合成サーバーであるWVSを設置することになります。

上に戻る
WebSphere Voice Server5.1.xとは?
音声認識ソフトウェアのパッケージソフトとして「ViaVoice」という名前をお聞きになられたことがあるのではないでしょうか?「ViaVoice」は、エンジンをIBMが開発しScanSoft様で販売を行っているPC向けのパッケージソフトです。
実は、ViaVoice for WindowsとWebSphere Voice Serverは、親戚同士という関係にあります。一般にはなじみの深かった、「ViaVoice」ですが、この認識エンジンと基本的には同じ物がWebSphere Voice Serverにも使用されています。WVSと「ViaVoice」がエンジン部分においては基本的には同じという話は、再度4章「最後に」のところでも出てきます。
いずれの製品ともに音声認識と音声合成を行うためのソフトウェアです。
では、何が「ViaVoice」と違うのかをWVSの機能を中心に下記の図で示すこととしましょう。

図2
図2 ViaVoiceとWVSの比較

(注、上記図2の中のWVS5.1で「ナビゲーション」という言葉が出てきますが、これはある特定の「キーワード」のみを認識するという意味です。)
WVS5.1.2では、IntelベースのLinux版、Windows2003 Server版もリリースされています。
では、WVSは全体としてどのような感じで動くのでしょうか?
下記の図をご覧下さい。

図3
図3 WVS・IVR・Web Application Serverの関係

上記の図のWeb Application ServerとはWAS(WebSphere Application Server以下WAS)とお考え下さい。ではWVSに音声認識させるためのアプリケーションとは具体的には何のことなのでしょうか?それがW3Cで規定されているVoiceXML2.0で書かれたアプリケーションです。VoiceXMLが何であるかは、第3章で述べますが、簡単に言うと音声を認識したり合成できるHTMLの様なタグ言語とお考え下さい。

音声認識するためのVoiceXMLで書かれたアプリケーションは、WASから見ると1つのWebアプリケーションと同じ扱いです。またWVSをインストールするとWASの管理コンソール上からWVSは「VoiceServer」として登録をされ、様々なコントロールが可能になります。
IVRでは次のような登録をします。
(1)特定の電話番号にかかってきたらどのVoiceXMLで書かれたアプリケーションを起動するかを定義する。
(2)WVS(より正確には音声認識エンジンと音声合成エンジンの計2つ)のネットワーク上でのアドレスを指定する。
IVRは、音声認識合成アプリケーションを使う際、最も大きな役割としてVoiceXMLを解釈するという働きがあり、この機能を通常VXML browserと呼びます。

図4
図4 WVSとIVRとWASの関係

上に戻る
WVSの新しい特徴
MRCP
先ほどの「ViaVoice」との比較では出てこなかったのですが、WVSの最も大きな特徴には、WVS 5.1.0から採用になったMRCP(Media Resource Control Protocol)があります。MRCPについてここでは詳細は述べませんが、特徴としては以下の4つがあげられます。
(1)IETF(Internet Engineering Task Force)で規定されているオープンな規格。
(2)RTSPやSIPに非常に近いストリーミング制御のためのプロトコル。
(3)WVSとIVRの間で音声認識エンジンと音声合成エンジンのやりとり(音の受け渡し、認識結果)を行うためのプロトコル。

特に(1)についてですが、MRCPを採用しているIVRであればどのメーカー製であってもWVS 5.1と接続可能であると言うことになります。
ただし、各社のIVR上には先程述べた通りVXML BrowserというVoiceXMLを解釈するインタープリターがあるのですが、これが各社の仕様によって微妙にVoiceXMLの解釈が異なりますので必ずIVRベンダーに事前に確認を取る必要があります。

SSML1.0対応
WVS5.1は、合成音声の音量や話すスピードを変えられるようにSSML(Synthetic Speech Markup Language以下SSML)に対応しています。SSMLは、VoiceXMLの合成音声出力に関する記述の中で使われます。SSMLもW3Cで規定されたオープンな規格です。WVS5.1の場合、日本語環境においてはほぼ全てのSSMLの規格通りに動くようになっています。

WVS5.1.xに含まれるものは大きく分類すると
(1)AIX5.1以上で稼働するWVS4.2(音声認識、合成ともに1つ前のバージョン)
(2)WVS5.1本体およびそのPTF
2005年6月時点での最新バージョンは5.1.2で、Linux版とWinodows2003Server版がリリース。
(3)WAS
(4)Genesys社のIVRを使う場合のTTS用追加モジュール
(5)WebSphere Studio Site Developer for Windows/Linux
(6)Voice Toolkit V5.1 for WebSphere Studio
が含まれています。
このうち(5)は、IDE(統合開発環境)です。(6)のVoice Tool Kitを組み込めばWebSphere Studio上で音声認識・合成を行いつつVoiceXMLのプログラミングをすることが可能になります。

上に戻る
VoiceXML2.0
既に何回か出てきていますが、ここで改めてVoiceXMLについて概要をまとめておきます。
図5
図5 VoiceXMLの記述例

(1)2004年3月にW3CでVoiceXML2.0として規定されたオープンな規格。
(2)規格のワーキンググループには、IBMを始め、Microsoft、Sun Microsystems、HP、日立製作所等が参加。
具体的に音声認識を行うにはどうしたらよいのでしょうか?
音声認識を行うには、VoiceXMLの中でグラマーと呼ばれる記述を行い、その中でキーワードとして認識させたい単語を羅列してあげる必要があります。第二章の中でWVSは「キーワード」を認識させると記しましたが具体的にはこのグラマーと呼ばれる記述の中にその「キーワード」を書くことになります。
音声合成は、<prompt>というタグの中にテキストを書くだけで読み上げてくれます。

ServletやWebアプリケーションとの連携
VoiceXMLは、タグを使ってJava Servletに処理を渡し、場合に応じて動的にVoiceXMLを生成することも可能です。またPOST/GETを使用して他のWebアプリケーションとの連携も可能です。
また余談ですが、音声ばかりでなくVoiceXMLは、プッシュホンのピポパの音(Dual Tone Multi Frequency:DTMF)も認識することができます。

上に戻る
最後に
最後になりましたが、WVS5.1が、今後目指すところについて述べたいと思います。
ここまで読んで下さった方にはご理解頂けるかと思いますが、WVSを使用することでIVRだけでは実現できなかった音声認識が利用できるため、人手を介さないで、コールセンター業務の省力化/自動化を実現することができます。
また音声合成を使用することでコールセンターのメニューが頻繁に代わるとしてもいちいち録音を取り直す手間やコストを削減することができます。

自然言語認識
作る側にとってはIVRとWVSを組み合わせるだけで良いのかも知れません。しかし、現状のWVS5.1は「キーワード」を認識させる方式なので、電話をかける側が一定のキーワードを覚えていなければなりません。 もっと人間同士が使うような自然な発想で、キーワードにとらわれずコンピューターに向かって電話で話しかけてコンピューターに理解してもらえないかという要求が数多くあります。一つの解決方法が自然言語認識です。これは、人間が通常自然に話している言葉で連続的に話しかけても(断片的に「キーワード」である単語を発音するのとは対照的に)コンピューターが理解してくれるというものです。 現在の技術では、ありとあらゆるテーマに対して自然な会話でコンピューターに話しかけて理解してもらえる事はできませんが、テーマを「駅の案内」など限定すれば実用になる場合も出てきています。 その際に基盤となる技術の一つに「ViaVoice」で養った口述筆記(ディクテーション)機能があります。前出の第二章のところで「ViaVoice」とWVSは基本的なエンジンは共通の物を使っていて親戚同士と述べましたがWVSも同じエンジンを使っているので口述筆記(ディクテーション)機能をベースに自然言語認識は技術的には可能なのです。
将来的には、WVSと自然言語認識を組み合わせたより柔軟で使いやすい電話音声認識システムが登場するかも知れません。

上に戻る
各種情報源
WVSに関する情報源
WVS Red Book

上に戻る
前頁へ  |  次頁へ
この記事についてどう思われますか?
  
  
  
  
  



  

レベルマークについて

このページで紹介されている情報はレベル別にカテゴライズされています。

上級者向け
中級者向け
初級者向け
入門者向け

関連リンク
WebSphere Everyplace