VoiceXML 2.0 及び音声認識文法仕様の公開について (W3C 勧告)

著者と公開日

出版日:: 2004年3月16日

W3C 音声入出力インタフェースフレームワークに必要不可欠な要素技術の仕様策定を完了

推薦状もご覧下さい。

http://www.w3.org/ — 2004年3月16日 — World Wide Web Consortium (W3C) は、Web に音声入出力インタフェースをもたらすべく、VoiceXML 2.0 及び音声認識文法仕様 Speech Recognition Grammar Specification (SRGS) を W3C 勧告として公開いたしました。VoiceXML 2.0 は、Web に基づく音声応答アプリケーションの効率的な開発と、効果的な音声対話コンテンツの提供を目的としています。また SRGS は音声認識に VoiceXML を利用する際の要であり、開発者が発話プロンプトに対するエンドユーザからの音声応答を記述するのに用いられます。

本報道発表は W3C 音声入出力インタフェースフレームワークを構成する最初の2つの仕様が勧告となったことを示しています。世界で推定20億台にも及ぶ加入電話や携帯電話を対象に、W3C 音声入出力インタフェースフレームワークを用いることで、プッシュホンからのダイヤルトーン (DTMF) 入力や音声による指示、あるいは録音や合成された音声、音楽を聞くといった対話により、かつてない程の数多くの人々があらゆる電話機を用いて、適切に設計された Web に基づくサービスとのやりとりを可能にします。

W3C 技術統括責任者である Tim Berners-Lee は次のように説明しています。「VoiceXML 及び SRGS が勧告になったことで、電信技術と Web との融合が進み、非常に興味深い段階に到達したと言えます。歴史的に見れば、音声に基づくシステムの発展の仕方と Internet や Web の発展の仕方には技術的にも文化的にも隔たりがあり、これまでは音声か Web かの何れかでしか情報は得られませんでした。VoiceXML 及び SRGS を含む W3C 音声入出力インタフェースフレームワークの開発により、我々は今、業界による研究や広範な製品テスト及び製品展開による可能性や影響力と、Web 技術原理に即し、状況に応じた規模適用性を備えた技術ソリューションにおける拡張性とオープン性という、双方の潜在能力を統合した成果を享受できるようになったのです。」

W3C 勧告は業界及び Web コミュニティにおいて広く Web 標準として認知されています。各勧告はそれぞれ W3C のワーキンググループによって策定され、W3C 会員によって審査された安定した仕様です。ワーキンググループによって形成された業界合意を明確化し、勧告を通じて Web 技術の相互運用性を促進します。

W3C 音声入出力インタフェースフレームワークの基盤となる VoiceXML 2.0 及び SRGS

W3C 音声入出力インタフェースフレームワークにおいて、VoiceXML はアプリケーションとユーザとの対話制御方法を提供します。また SRGS は、想定されるユーザの応答を記述する文法を指定することで、音声認識システムの挙動を制御するのに利用します。音声入出力インタフェースフレームワークにはこの他に、発話プロンプト機能を提供する音声合成記述言語 Speech Synthesis Markup Language (SSML)、VoiceXML やその他の対話システムに通話呼出制御機能を提供する呼出制御記述言語 Voice Browser Call Control (CCXML)、発話文法をアプリケーションにおける意味に対応させる方法を規定する、音声認識における意味解釈 Semantic Interpretation for Speech Recognition が含まれています。

音声入出力インタフェースフレームワークに音声対話機能を提供する VoiceXML 2.0

開発者は VoiceXML 2.0 を用いることで、音声合成、ディジタルオーディオ、音声認識、プッシュホンからのダイヤルトーン (DTMF) 入力、音声の録音、通話、話者が任意に移り変わる会話の各機能を実現する音声対話ダイアログの作成が可能になります。 VoiceXML は HTML 同様に Web サーバから HTTP を用いてダウンロードされます。これはアプリケーション開発者が広範に運用され、業界でも実証済の Web 技術の利点を最大限に活かせることを意味しています。

W3C の Voice Browser アクティビティリードである Dave Raggett は次のように説明しています。「VoiceXML 2.0 には電話による情報サービスや顧客サービスの実現方法を大きく変える力があります。もう『何々の場合は1を、そうでない場合は2を押して下さい。』などと言われることはありません。代わりに、音声で選択肢や情報を伝えたりすることができるようになります。加えて VoiceXML 2.0 は、目の不自由な方や車の運転中など、手や目が離せない状況下での Web アクセスを必要としている方にその機会を提供します。」

ユーザからの音声応答に対する堅牢な認識を制御する SRGS

音声認識文法仕様 (SRGS) はユーザが応答した際に単語やフレーズをアプリケーションが特定できるようにします。これにより、話者に依存しない堅牢な認識を可能にします。

SRGS は音声入力とプッシュホンからのダイヤルトーン (DTMF) 入力の両方に対応します。DTMF 入力は周囲が騒がしい場合や、社会通念上、音声通話が好ましくない場所で利用する際に有効です。一般的に音声認識においては認識度合い、すなわち、単語やフレーズを正しく認識した可能性についての報告が可能です。また、音声認識において実際のユーザ発言の幾つかについて不確かである場合は、最も可能性のある代替語や代替フレーズを返すこともあります。

SRGS は音声に適用できるだけでなく、ユーザが入力できる単語を制限してはいるものの、手書き文字認識にも問題なく応用できています。

すでに業界で広範に採用されている VoiceXML 2.0 及び SRGS

W3C では、それぞれ独立した相互運用可能な実装が実現していることを示さなけば、仕様を勧告にすることはできません。これは仕様が問題なく機能することを検証しなければならないことを意味しています。VoiceXML 2.0 の場合は、完全な製品版及びプロトタイプ実装の双方を含む、少なくとも8つという稀に見る数の既存の実装が存在します。また最新の全実装事例についても公開されています。SRGS の実装報告でも少なくとも6つの完全で独立した実装が存在しています。

VoiceXML 2.0 には一般に入手可能な広範なテストスィートも用意されています。初版では300程のテストで構成されていましたが、最終版には600を超えるテストが含まれています。このテストスィートは、音声認識文法仕様 (SRGS) とともに公開されたテストスィートや、2003年12月に W3C の勧告候補になった音声合成記述言語 (SSML) とともに公開されたテストスィートを補完するものです。音声認識における意味解釈 Semantic Interpretation for Speech Recognition や呼出制御記述言語 (CCXML) を含む、他の W3C 音声入出力インタフェースフレームワーク仕様に対するテストスィートは、W3C の Voice Browser ワーキンググループにおいて開発が進められており、数ヵ月後には公開される予定です。

Voice Browser ワーキンググループは、音声入出力フレームワークを構成する他の仕様の策定作業の継続に加え、VoiceXML 2.0 の成果に基づくとともに、SALT や XHTML+Voice、あるいは W3C 会員からのこの他の提案などの意見を統合する、新たな対話記述言語に対する要件の設計作業に既に全力で取り組んでいます。

W3C の Voice Browser ワーキンググループは、W3C 内でも1、2を争う最大かつ最も活発なワーキンググループの1つです。本ワーキンググループには、Aspect Communications、BeVocal Inc.、キヤノン、Comverse Technology、Convedia、ERCIM、France Telecom、HeyAnita、HP、日立製作所、IBM、Intel、IWA-HWG、Loquendo、Microsoft、MITRE、三菱電機、Motorola、Nuance Communications、Openstream、SAP、ScanSoft、Siemens、SnowShore Networks、Sun Microsystems、Telera、Tellme Networks、Verascape、VoiceGenie Technologies、Voxeo、Voxpilot が参加しています。

World Wide Web Consortium [W3C] について

W3C は、Web の発展と相互運用性を確保するための共通のプロトコルを開発することにより、Web の可能性を最大限に引き出すべく設立されました。W3C は、アメリカ合衆国マサチューセッツ工科大学計算機科学人工知能研究所 (MIT CSAIL)、フランスに本部を置く欧州情報処理数学研究コンソーシアム (ERCIM)、及び日本の慶應義塾大学がホスト機関として共同運営にあたっている国際産業コンソーシアムです。コンソーシアムにより提供されるサービスには、開発者及び利用者のための World Wide Web に関する豊富な情報、新技術を応用した様々なプロトタイプやサンプルアプリケーションの開発などが挙げられます。現在までに、400近い組織がコンソーシアムの会員となっています。詳しくは http://www.w3.org/ をご参照下さい。

お問い合わせ先 (アメリカ、オーストラリア) —: Janet Daly, <janet@w3.org>, +1.617.253.5884 または +1.617.253.2613
お問い合わせ先 (ヨーロッパ、アフリカ、中東) —: Marie-Claire Forgue, <mcf@w3.org>, +33.492.38.75.94
お問い合わせ先 (アジア) —: 平川泰之, <chibao@w3.org>, +81.466.49.1170