VoiceXML 2.0 勧告案の公開について

著者と公開日

出版日:: 2004年2月3日

大詰めを向かえた W3C 音声入出力インタフェースフレームワーク基盤

http://www.w3.org/ — 2004年2月3日 — World Wide Web Consortium (W3C) は、Web に音声入出力インタフェースをもたらすべく、VoiceXML 2.0 を勧告案として公開いたしました。VoiceXML 2.0 は、Web に基づく音声対話アプリケーションの効率的な開発と、効果的な音声対話コンテンツの提供を目的としています。

W3C の技術文書が勧告案になるということは、ワーキンググループによる一般及び W3C の他のワーキングループからのレビューコメントへの回答が問題なく完了し、相互運用可能な実装に対する検証が成功したことを受け、その結果が公開されたことを示しています。これはまた一般に Web 標準として認知されている W3C 勧告へ向けての最終レビュー期間であることも示しています。

Web に音声入出力インタフェースをもたらす W3C 音声入出力インタフェースフレームワーク

1999年以来 W3C では、プッシュホンからのダイヤルトーン入力や音声による指示、あるいは録音や合成された音声、音楽を聞くといった対話により、Web へのより多様なアクセスを実現する音声入出力インタフェースフレームワークの開発に取組んでいます。世界中で10億台を遥かに超える膨大な数の携帯電話や加入電話と、W3C 音声入出力インタフェースフレームワークを構成する仕様を用いることで、かつてない程の数多くの人々があらゆる電話機を通じて、適切に設計された Web に基づくサービスにアクセスできるようになります。

音声入出力インタフェースフレームワークに音声対話機能を提供する VoiceXML 2.0

開発者は VoiceXML 2.0 を用いることで、音声合成、ディジタルオーディオ、音声認識、プッシュホンからのダイヤルトーン (DTMF) 入力、音声の録音、通話、話者が任意に移り変わる会話の各機能を実現する音声対話ダイアログの作成が可能になります。

W3C の Voice Browser アクティビティリードである Dave Raggett は次のように説明しています。「VoiceXML 2.0 には、電話による情報サービスや顧客サービスの実現方法を大きく変える力があります。もう『何々の場合は1を、そうでない場合は2を押して下さい。』などと言われることはありません。代わりに、音声で選択肢や情報を伝えたりすることができるようになります。加えて VoiceXML 2.0 は、目の不自由な方や車の運転中など、手や目が離せない状況下で Web アクセスを必要としている方にその機会を提供します。」

W3C 音声入出力インタフェースフレームワークにおいて、VoiceXML はアプリケーションとユーザとの対話制御方法を提供します。同様に、音声合成記述言語 Speech Synthesis Markup Language (SSML) は音声入力時の待受けに、音声認識文法仕様 Speech Recognition Grammar Specification (SRGS) は、想定されるユーザの応答を記述する文法を指定することで、音声認識システムの挙動を制御するのに利用します。音声入出力インタフェースフレームワークにはこの他に、VoiceXML やその他の対話システムに通話呼出制御機能を提供する、呼出制御記述言語 Voice Browser Call Control (CCXML) や、音声認識文法仕様 (SRGS) における構文や意味を規定する、音声認識における意味解釈 Semantic Interpretation for Speech Recognition が含まれています。

すでに業界で広範に採用されている VoiceXML 2.0

W3C では、それぞれ独立した2つ以上の相互運用可能な実装が実現していることを示さなけば、仕様を勧告案にすることはできません。 — これは即ち、仕様が問題なく機能することを検証しなければならないことを意味しています。VoiceXML 2.0 の場合は、完全な製品版及びプロトタイプ実装の双方を含む、少なくとも8つという稀に見る数の既存の実装がこれにあたります。また最新の全実装事例についても公開されています。

VoiceXML 2.0 には一般に入手可能な広範なテストスィートも用意されています。初版では300程のテストで構成されていましたが、最終的には500を超えるテストで構成される予定です。テストスィートに関する最新情報は Voice Browser 公開メーリングリスト上で発表されます。

このテストスィートは、2002年6月に W3C の勧告候補になった音声認識文法仕様 (SRGS) とともに公開されたテストスィートを補完するものです。音声合成記述言語 (SSML) を含む、他の W3C 音声入出力インタフェースフレームワーク仕様に対するテストスィートは、W3C の Voice Browser ワーキンググループにおいて開発が進められており、数ヵ月後には公開される予定です。

音声入出力インタフェースフレームワークの展開に向け、特許問題もクリアされた VoiceXML 2.0

W3C の Voice Browser ワーキンググループは、W3C 内でも1、2を争う最大かつ最も活発なワーキンググループの1つです。本ワーキンググループには、BeVocal Inc.、キヤノン、Comverse、France Telecom、Genesys Telecommunications Laboratories、HP、HeyAnita、日立製作所、IBM、Intel、Loquendo、Microsoft、MITRE、三菱電機、Motorola、Nokia、Nortel Networks、Nuance、Philips、PipeBeach、SAP、ScanSoft、SnowShore Networks、SpeechWorks、Sun、Syntellect、Tellme Networks、Unisys、Verascape、VoiceGenie、Voxeo、Voxpilot が参加しています。

Voice Browser ワーキンググループが採用するロイヤリティフリーライセンス方式との矛盾に端を発する特許問題については、W3C の特許取扱い運用規約 (Current Patent Practice) に基づいて W3C 内に設置された特許諮問委員会 (PAG) において解決されました。これにより、VoiceXML 2.0 の中核をなす仕様については W3C のロイヤリティフリーライセンスに従って入手可能となるよう、W3C の Voice Browser ワーキンググループはオープンな仕様の策定に賛同し、Voice Browser 特許諮問委員会による問題解決に至りました。

World Wide Web Consortium [W3C] について

W3C は、Web の発展と相互運用性を確保するための共通のプロトコルを開発することにより、Web の可能性を最大限に引き出すべく設立されました。W3C は、アメリカ合衆国マサチューセッツ工科大学計算機科学人工知能研究所 (MIT CSAIL)、フランスに本部を置く欧州情報処理数学研究コンソーシアム (ERCIM)、及び日本の慶應義塾大学がホスト機関として共同運営にあたっている国際産業コンソーシアムです。コンソーシアムにより提供されるサービスには、開発者及び利用者のための World Wide Web に関する豊富な情報、新技術を応用した様々なプロトタイプやサンプルアプリケーションの開発などが挙げられます。現在までに、400近い組織がコンソーシアムの会員となっています。詳しくは http://www.w3.org/ をご参照下さい。

お問い合わせ先 (アメリカ、オーストラリア) —: Janet Daly, <janet@w3.org>, +1.617.253.5884 または +1.617.253.2613
お問い合わせ先 (ヨーロッパ、アフリカ、中東) —: Marie-Claire Forgue, <mcf@w3.org>, +33.492.38.75.94
お問い合わせ先 (アジア) —: 平川泰之, <chibao@w3.org>, +81.466.49.1170