このコラムは無料メールマガジン「アメニティ&サウンド音と快適の空間へ」 vol.12〜vol.64(2002年8/15〜2004年11/18)に音響システムの関連コラムとして連載していたものを編集掲載したものです。
昨年(2004年2月掲載時) 勧告候補公開されたVoiceXML2.0がW3C(World Wide Web Con-sortium)勧告案としてとして公開されました。
▼『VoiceXML』仕様がさらに前進
Japn.internet.com Webテクノロジー 2004年2月4日
http://japan.internet.com/webtech/20040204/11.html
VoiceXMLは音声認識や音声合成、音声入出力、対話処理などをWEBで利用するためにXMLデータとして記述する標準仕様です。
▼XML(eXtensible Markup Language)
e-Words IT用語辞典
http://e-words.jp/w/XML.html
VoiceXML(VXML)の応用範囲は広いのですが、データのフォーマットを標準化することで、音声合成や音声認識などの各社サービスや製品を利用するアプリケーションや機器で共通の方式が利用できるようになることがメリットです。
VXMLを利用した製品やサービスは、IBMのWebSphere Voice Serverなどの音声対応製品などがありますが、VXMLの形式のテキストを、サーバーと送受信することでブラウザで音声合成したり、電話の音声をサーバーで認識して結果をVXML形式でのテキストを送信するという機能を提供する製品です。
音声合成はともかく、音声認識には、言葉を認識するボキャブラリ用データベースが大量に必要となりますから、音声認識部分をサーバーで実現するという解決方法を採ることでデータ蓄積などできない携帯端末などでも、通信回線を通じて音声認識の結果を利用することができます。
この送信データの形式にVXMLを利用することで、各社の製品に互換性を持たせることが容易になります。
音声サーバー機能やデータベースを独自に開発していると高価になり専用のアプリケーションでしか利用できませんが、送信データの形式にVXMLを利用することで、各社の製品に互換性を持たせることが容易になり、市販製品としてのアプリケーションや製品が作りやすくなります。
VoiceXML 2.0では、音声合成、ディジタルオーディオ、音声認識、携帯電話やプッシュホンのダイヤルトーン入力、音声の録音、通話、音声対話ダイアログの機能と多彩な内容になっています。
▼W3C(World Wide Web Consortium)
2/4日現在NewsのトップにVXML2.0の公開が掲載されています。
http://www.w3.org/
VXML2.0のサーバーを廉価に利用できるサービスがあれば、携帯機器から音声を送り、送信されてきたXMLテキストに応じて表示し、音声合成による対話も行うというような機能が実現できます。
現在は、企業のコールセンターの電話受付などで音声合成と音声認識エンジンが採用されていたり、WEBサイトのナビゲーションに利用(ボイス・ポータル)されている例などがありますが、携帯電話やカーナビゲーション、家電製品などから音声によってWeb上のサービスを利用したり、音声で操作できるようにする場合などでの利用方法が期待されています。
日本や米国では、自動車に搭載されるカーナビや電話などの車載機器は、安全運転のために、走行中はハンズフリー環境であることが求められます(道交法の改定以来、走行中の携帯電話による通話もハンズフリーであることが必要となっています)。
現在は、リモコン操作のための認識に利用されていますが、ヘッドセットや、音声の入出力装置を備えているため、情報端末として高度な音声対話機能を提供できる可能性も持っていますが、端末の処理能力を超えるような場合であっても、VXMLによってWEBサーバーを介することで、高度な処理を簡易に実現できる可能性があります。
カーナビなどの場合には、情報端末としてのディスプレイや処理能力をある程度備えていますが、工場や現場などでのハンズフリーの音声応答システムには応用用途が期待されます。
これらの応用時にVXML形式を採用することで複数のシステムを利用したサービスや機能を実現できます。SF映画などでの音声命令が実現するというわけではありませんが、VoiceXML 2.0の勧告案公開は、高度な音声対話処理をより身近なもの一歩近づけたかもしれません。
音響システムやオーディオ、AVに関連した雑記
「アメニティ&サウンド音と快適の空間へ」 vol.12〜vol.64に 音響システムの関連コラムとして連載していたものを編集掲載したものです。
サウンドコラム 音響とAV,オーディオの四方山vol.41〜503D音響システムとスピーカ・アレイ Iosonoとサラウンド / プレーヤーとメディアのハイブリッド化(BD,HD DVD,DualDisk) / デジタルアンプとデジタルスピーカ(D級アンプと消費電力, 特徴-シンプルな構成- パワーアンプと伝送 -効率,発熱,クロスオーバー,デジタルスピーカの特徴) / 自衛隊の大砲を使ったコンサート / コーデックキラー(音声圧縮エンコードとノイズ) |
|
サウンドコラム 音響とAV,オーディオの四方山vol.31〜40 |
サウンドコラム 音響とAV,オーディオの四方山vol.21〜30 |
サウンドコラム 音響とAV,オーディオの四方山vol.11〜20CDを再生できないCDプレーヤー CCCD(Copy Control CD) / 音質は確実に落ちている? / 手軽に音響測定 / アカデミー音響賞、音響効果賞 / デジタルTVの双方向性 / テクノロジーと本質の視点( デジタル・オーディオは高音質か? ) / PCMはCDと同じ? / デジタルアンプの時代( デジタルアンプのコンシューマ化 ) / オーディオ機器への音楽配信 / 家庭の音場補正 |
サウンドコラム 音響とAV,オーディオの四方山vol.01〜10デジタルオーディオと記録 DVD製造者認識コード(Disc ID) / CD誤り訂正と音質、ピット、誤り訂正 / CDリッピングで音質向上? / パソコンのサウンド機能 / 人間の耳−最も優れた音のセンサー(精密測定用マイク, カクテルパーティー効果) / パソコンの静音設計とノイズ / ホームAVサーバー / TV放送の音声と帯域 / パソコンVS家電 - データ交換 / DVDの評価表現「劇場上映時と」 |
音響測定、音圧レベル分布、伝送周波数特性
「アメニティ&サウンド 音と快適の空間へ」のvol.1〜10に連載していた 音圧レベル分布と伝送周波数特性に関連したコラムをサウンド コラムのページに編集して掲載しました。
サウンドコラム 音響測定編 音圧分布音圧レベル(SPL)、オクターブバンド、dB、ノイズ |
サウンドコラム 音響測定編 周波数特性周波数、基音と倍音、無響室、フラット再生 |