SSML 1.0 の公開について (W3C 勧告)

著者と公開日

出版日:

音声入出力インタフェースフレームワークを強化する高品質な音声合成

推薦状もご覧下さい。

 

http://www.w3.org/ — 2004年9月8日 — World Wide Web Consortium (W3C) は、Web の音声対応機能を強化すべく、音声合成記述言語 Speech Synthesis Markup Language (SSML) 1.0W3C 勧告として公開いたしました。W3C 音声入出力インタフェースフレームワークを構成する基盤仕様の1つである SSML 1.0 を採用することで、より高品質な音声合成機能を用いた Web 利用が可能となります。携帯電話や PDA、あるいは今後普及が見込まれる様々な最新技術を対象としたアプリケーション設計者は、SSML を用いることで、発音や音量、調子など、音声合成に必要な要素をきめ細かくかつ適度に制御することが可能となります。W3C Voice Browser ワーキンググループによって策定され、本勧告と組み合せて利用される VoiceXML 2.0 や音声認識文法仕様 Speech Recognition Grammar Specification (SRGS) の2つの W3C 勧告同様、SSML 1.0 は音声合成機能を持つ様々なハードウェアやソフトウェア間での横断的な相互運用を推進するとともに、他の Web 技術との統合を目的に策定されました。

W3C 技術統括責任者である Tim Berners-Lee は次のように述べています。「Voice Browser ワーキンググループにより、電話によるサービスへのアクセスが Web 技術の利用によって改善されたことに私は大変興奮しています。各企業はそれぞれの顧客に対し、コンピュータを用いて Web にアクセスするのと同じように、電話を使った Web アクセスを提供することができるようになります。」なお Tim Berners-Lee は、来週開催される SpeechTEK カンファレンスにて基調講演を行います。

世界で推定20億台にも及ぶ加入電話や携帯電話を対象に、音声に対応した Web アプリケーションの実現に必要な仕様群である W3C 音声入出力インタフェースフレームワークを用いることで、プッシュホンからのダイヤルトーン (DTMF) 入力や音声による指示、あるいは録音や合成された音声、音楽を聞くといった対話により、かつてない程の数多くの人々があらゆる電話機を用いて、適切に設計された Web に基づくサービスとのやりとりが実現されます。

W3C 勧告は業界及び Web コミュニティにおいて広く Web 標準として認知されています。各勧告はそれぞれ W3C のワーキンググループによって策定され、W3C 会員によって審査された安定した仕様です。ワーキンググループによって形成された業界合意を明確化し、勧告を通じて Web 技術の相互運用性を促進します。

高品質な発話のための豊富な語彙

SSML が対象とする Web における音声対応の強化に向けた最優先課題の1つは発音です。例えば、皆さんは "1/2" をどのように発音するでしょうか? SSML 1.0 仕様では、一般的な単なる文字列を意味のある合成音声に変える、という課題の幾つかを説明するためにこの単純な例を用いています。補足的な文脈なしでは、「2分の1」なのか、「1月2日」なのか、あるいは「2月1日」なのか、はたまた「1割る2」なのか、その読み方を判断することは困難です。SSML 1.0 はこのような曖昧性を取り除くのを支援します。SSML の語彙を用いることで、想定されるアプリケーションやオーサリング要件を広範に満たすために、単語単位や音素単位、あるいは波形単位での音声出力制御が可能となります。

音声ブラウザに関する仕様の標準化を行う W3C の Voice Browser アクティビティのアクティビティリードであり、キヤノンからの W3C 訪問研究員である Dave Raggett は次のように述べています。「アプリケーション開発者が、音声応答サービスの一部として、録音された音声と合成音声を組み合わせた高品質な音声を実現する強力かつ柔軟な方法を利用できるよう、SSML は音声合成分野における先駆者らの研究成果に基づいています。また SSML を用いることで、発話障害や聴覚障害の人が電子メールなどの文字通信機能を持つ電話などから VoiceXML に基づくサービスにアクセスできるようになります。加えて、 SSML は VoiceXML との組合せ利用だけでなく、今後の普及が期待されるマルチモーダルなやりとりのための標準との組合せも見込んでいます。」

XHTML 同様、SSML は広範に採用されている XML 標準に基づくマークアップ言語です。SSML データは単体でも存在し得ますし、音声合成としての再生効率改善のために、他の XML コンテンツ内に含まれることもあります。もちろん音声応答アプリケーション作成の際には、SSML は VoiceXML ラッパーと一緒に利用するのがとりわけ適しています。

SSML 1.0 はまた、他の様々な方法での Web との統合も考慮して策定されました。Voice Browser ワーキンググループは、SSML 1.0 の設計がアクセシビリティや国際化、あるいは一般的な Web アーキテクチャの原理と一貫性が取れているかを確認するために、W3C 内の他のワーキンググループと綿密な活動を進めました。実際、SSML における重要なアプリケーションの1つは、聴覚障害の人が利用することがある、電子メールなどの文字通信機能を持つ電話を必要としています。また、一般の電話を通して、同一の内容を音声出力することも可能です。SSML 1.0 はまた、CSS を用いた発音記述における W3C でのこれまでの成果とも一貫性が取れています。W3CCSS ワーキンググループでは、SSML に基づく読み上げソフトウェアを用いて XML 文書を読み上げるために、CSS 3 における発話モジュールを制定しています。

業界による早期採用

W3C の Voice Browser ワーキンググループは、仕様が勧告となる前の段階からその採用を保証していた点で特に成功を収めました。SSML 実装報告 2004年7月版にて議論された試験集は、一貫した振る舞いと既に多数存在した SSML 1.0 実装間での品質を保証する手がかりとなりました。本ワーキンググループ参加組織で既に SSML 1.0 の実装を行っている組織には、Aspect Communications、France Telecom、Hewlett-Packard、IBM、Loquendo、Microsoft、MITRE、Nuance Communications、SAP、ScanSoft、Sun Microsystems、VoiceGenie Technologies、Voxeo、Voxpilot が含まれています。

本ワーキンググループでは現在、音声入出力インタフェースフレームワークの残りの部分に注力しています。Intel の先端ヒューマンインタフェース責任者であり、W3C の Voice Browser ワーキンググループ共同議長でもある Jim Larson は次のように述べています。「VoiceXML 2.0 と音声認識文法仕様 Speech Recognition Grammar Specification (SRGS) の各勧告に続き、SSMLW3C 音声入出力インタフェースにおける3番目の W3C 勧告となります。さらに私達は W3C 音声入出力インタフェースに含まれる上述以外の言語である、VoiceXML 2.1 や意味解釈、あるいは、呼出制御記述言語 (CCXML) をそれぞれ勧告化するための活動を進めています。」

W3C の Voice Browser ワーキンググループは W3C 内でも1、2を争う最大かつ最も活発なワーキンググループの1つです。本ワーキンググループには、Aspect Communications、BeVocal、Brooktrout Technology、キヤノン、Comverse Technology、Convedia、Electronic Data Systems、France Telecom、Genesys Telecommunications Laboratories、HeyAnita、日立製作所、Hewlett-Packard、IBM、Intel、IWA-HWG、Korea Association of Information and Telecommunication、Loquendo、Microsoft、MITRE、三菱電機、Motorola、Nokia、Nuance Communications、Openstream、SAP、ScanSoft、Siemens、 Sun Microsystems、Syntellect、Tellme Networks、Verascape、Vocalocity、VoiceGenie Technologies、Voxeo、Voxpilo がそれぞれ参加しています。

World Wide Web Consortium [W3C] について

W3C は、Web の発展と相互運用性を確保するための共通のプロトコルを開発することにより、Web の可能性を最大限に引き出すべく設立されました。W3C は、アメリカ合衆国マサチューセッツ工科大学計算機科学人工知能研究所 (MIT CSAIL)、フランスに本部を置く欧州情報処理数学研究コンソーシアム (ERCIM)、及び日本の慶應義塾大学がホスト機関として共同運営にあたっている国際産業コンソーシアムです。コンソーシアムにより提供されるサービスには、開発者及び利用者のための World Wide Web に関する豊富な情報、新技術を応用した様々なプロトタイプやサンプルアプリケーションの開発などが挙げられます。現在までに、400近い組織がコンソーシアムの会員となっています。詳しくは http://www.w3.org/ をご参照下さい。

 

お問い合わせ先 (アメリカ、オーストラリア)
Karen Myers, <karen@w3.org>, +1.617.253.5884 または +1.978.502.6218
お問い合わせ先 (ヨーロッパ、アフリカ、中東)
Marie-Claire Forgue, <mcf@w3.org>, +33.492.38.75.94
お問い合わせ先 (アジア)
平川 泰之, <chibao@w3.org>, +81.466.49.1170

関連RSSフィード