Speech Recognition Grammar Specification 勧告候補の公開について

著者と公開日

出版日:: 2002年6月26日

W3C Speech Interface Framework を構成する重要なコンポーネントの実装を広く一般に呼び掛け

推薦状もご覧下さい。

http://www.w3.org/ -- 2002年6月26日 -- World Wide Web Consortium (W3C) は、Speech Recognition Grammar Specification (音声認識文法仕様) を勧告候補として公開いたしました。音声認識文法により、音声入力に基づくアプリケーションの開発者は、アプリケーションにおける各音声入力プロンプトに続けて、ユーザが回答すべきことを記述するルールの作成が可能になります。

これらの仕様が勧告候補になったということは、これらの仕様が安定しており、また一般の Web 開発者コミュニティに対し、さらなる実装と技術的なフィードバックの提供を行って頂きたいことを意味しています。

Web との音声対話に必要なフレームワーク

W3C Voice Browser ワーキンググループは、音声対話 (VoiceXML 2.0)、音声合成 (Speech Synthesis Markup Language)、音声認識 (Speech Grammar, Stochastic Language Models, Semantic Interpretation for Speech Recognition, Natural Language Semantics)、呼出制御 (Voice Browser Call Control: CCXML)、及び対話的な音声応答アプリケーションにおけるこれら以外の機能を実現する、一連のマークアップ言語の定義を行っています。これらは全て、W3C Speech Interface Framework の実現に寄与します。

W3C Voice Browser アクティビティリードで、Openwave Systems Inc. からの W3C フェローである Dave Raggett は次のように説明しています。「W3C は、世界中に10億台以上も存在する電話機からの Web アクセスを実現すべく、Web を拡張させる標準化活動を進めています。今後は、命令コマンドを音声入力したり、録音された音声や、合成された音声や音楽を聞いたりすることで、Web との対話が可能になるでしょう。これらはまた、目の不自由な方や、車の運転中など、手や目が離せない状況下における Web アクセスを必要としている方においても、大きな助けとなるでしょう。」

Speech Recognition Grammar Specification は、一連の W3C Speech Interface Framework において、初めて勧告候補になった仕様です。

音声認識に XML のルールを提供する音声認識文法

音声認識文法により、アプリケーション開発者は、特定の文脈において、ユーザが回答すべき一連の単語群に対応するルールの指定が可能となります。 W3C Speech Recognition Grammar Specification は、文脈自由音声認識文法のための XML 言語を定義しています。

より実用的な点では、音声認識文法を用いることで、質問への回答が複数になる可能性に柔軟に対応できます。例えば、全く同じ意味で Yes と答える場合もあれば、Sure や Fine と答える場合もあります。また日付を表現するのに、Tomorrow と答える場合もあれば、July 8th、あるいはその逆の 8 July などと答える可能性もあります。Speech Recognition Grammar Specification では、アプリケーション開発者が、ある文脈においてユーザが発言すると思われる単語の組み合わせ全てに対応するルールの定義が可能な XML 言語を提供します。

これらのルールセットはどの個別のマークアップ言語とも独立しているので、 VoiceXML のいずれのバージョンとも、あるいは、その他の音声対話マークアップ言語であっても、一緒に組み合わせて利用できます。

Speech Interface Framework のさらなる実装を開発者に呼び掛け

W3C は、音声認識文法に対する仕様の実装報告をお待ちしています。仕様を策定している W3C Voice Browser ワーキンググループに参加している組織間では、すでに重要な実装経験が積まれています。それらを踏また上で、実装報告計画として、大規模なテストケースセットが提供されます。勧告候補から勧告案に進むには、仕様上必要とされる機能それぞれに対し、少なくとも2つの相互運用可能な実装が必要です。

W3C の合意に基づく手続きに法り、業界を先導するリーダ達によって策定された音声認識文法のための仕様

W3C Voice Browser ワーキンググループは、音声対話技術開発を先導する役割を担う W3C 会員や invited expert らから構成されています。音声認識文法のための仕様策定には、BeVocal, Cisco Systems, Comverse, IBM, Locus Dialogue, Lucent, Microsoft, Nuance Communications, Openwave, Philips, PipeBeach, Scansoft, SpeechWorks International, Tellme Networks, Unisys が参加しています。これらの組織の多くが、現在の製品、または将来的な製品でのサポートを表明し、音声認識文法のための仕様に対する推薦状を提供しています。

World Wide Web Consortium [W3C] について

W3C は、Web の発展と相互運用性を確保するための共通のプロトコルを開発することにより、 Web の可能性を最大限に引き出すべく設立されました。W3C は、アメリカ合衆国マサチューセッツ工科大学計算機科学研究所 (MIT/LCS)、フランス国立情報処理自動化研究所 (INRIA)、及び日本の慶應義塾大学がホスト機関として共同運営にあたっている国際産業コンソーシアムです。コンソーシアムにより提供されるサービスには、開発者及び利用者のための World Wide Web に関する豊富な情報、新技術を応用した様々なプロトタイプやサンプルアプリケーションの開発などが挙げられます。現在までに、500近くの組織がコンソーシアムの会員となっています。詳しくは http://www.w3.org/ をご参照下さい。

問い合わせ先 (アメリカ、オーストラリア) --: Janet Daly, <janet@w3.org>, +1.617.253.5884 または +1.617.253.2613
問い合わせ先 (ヨーロッパ) --: Marie-Claire Forgue, <mcf@w3.org>, +33.492.38.75.94
問い合わせ先 (アジア) --: 竹内佐衣子, <saeko@w3.org>, +81.466.49.1170