Le W3C publie les recommandations VoiceXML 2.0 et Grammaire de Reconnaissance de la Parole

Finalisation des composantes centrales de la plate-forme Interface Vocale du W3C

http://www.w3.org/ -- 16 mars 2004 -- Le Consortium World Wide Web (W3C) donne de la voix sur le Web avec la publication du langage VoiceXML 2.0 et de la spécification Grammaire de Reconnaissance de la Parole (Speech Recognition Grammar Specification - SRGS) en recommandations W3C. L'objectif de VoiceXML 2.0 est de faciliter l'utilisation des techniques de développement Web pour la mise en place d'applications vocales interactives. SGRS, spécification clé pour la reconnaissance vocale en complément de VoiceXML, est utilisée par les développeurs pour décrire les choix possibles des utilisateurs en réponse à des annonces vocales.

VoiceXML 2.0 et SGRS sont les deux premières spécifications au stade de recommandation W3C de la plate-forme Interface Vocale (W3C's Speech Interface Framework). Avec un nombre de lignes téléphoniques et de téléphones portables estimé à plus d'un milliard dans le monde entier, cette plate-forme va permettre à un nombre considérable de personnes de pouvoir accéder à des services Web - interactions de type clavier téléphonique, commandes vocales, annonces préenregistrées, voix et musiques synthétisées - à partir de n'importe quel téléphone.

« La finalisation de VoiceXML 2.0 et de SRGS marque une étape passionnante dans la convergence des technologies des télécommunications et le Web. Historiquement, il existait un fossé à la fois technique et culturel entre l'évolution des systèmes fondés sur la voix et ceux du Web et de l'Internet, n'autorisant l'accès à des informations que par le biais de systèmes vocaux, ou via le Web, » explique Tim Berners-Lee, directeur du W3C. « Avec le développement de la plate-forme Interface Vocale du W3C, dont VoiceXML 2.0 et SRGS font partie, nous sommes maintenant capables d'intégrer et de bénéficier des forces de ces deux domaines : la puissance et l'impact de la recherche industrielle, le déploiement et les tests de produits à grande échelle, l'extensibilité et l'ouverture de solutions techniques cohérentes avec les principes du Web, ces solutions pouvant alors croître de manière exponentielle. »

Le statut de Recommandation W3C, équivalent à un standard Web, indique que le document est stable, et qu'il contribue à l'interopérabilité du Web. Il a été revu et approuvé par les membres W3C qui préconisent une large adoption par l'industrie. Les recommandations W3C favorisent l'interopérabilité des technologies du Web, grâce aux consensus obtenus par le groupe de travail concerné.

VoiceXML 2.0 et SRGS forment les briques de bases de la plate-forme Interface Vocale du W3C

Dans le cadre de la plate-forme Interface Vocale du W3C, VoiceXML contrôle les interactions entre une application et un utilisateur, tandis que le Langage de Synthèse Vocale (Speech Synthesis Markup Language - SSML) est utilisé pour générer des annonces vocales synthétiques. Quant à la spécification Grammaire de Reconnaissance de la Parole (Speech Recognition Grammar Specification - SRGS), elle guide la reconnaissance en utilisant la description des réponses possibles de l'utilisateur. La spécification Contrôle d'Appel de Navigateur Vocal (Voice Browser Call Control - CCXML) décrit le contrôle d'appels téléphoniques, par exemple le transfert d'appel, pour VoiceXML ou autres systèmes d'interaction vocale. Enfin, l'Interprétation Sémantique pour la Reconnaissance de la Parole (Semantic Interpretation for Speech Recognition) définit la syntaxe et la sémantique des balises dans SGRS.

VoiceXML 2.0 apporte voix et interactivité au sein de la plate-forme Interface Vocale du W3C

VoiceXML 2.0 permet aux développeurs de créer des dialogues vocaux utilisant des voix synthétisées, des sons numérisés, de la reconnaissance de parole et de sons DTMF (ou Fréquences Vocales), des messages enregistrés, des communications téléphoniques, ainsi que différents modes de dialogues initiés par le serveur ou l'utilisateur. VoiceXML est téléchargé à partir de serveurs HTTP, tout comme HTML. Cela veut dire que les développeurs d'application pourront tirer profit de technologies Web largement déployées et utilisées par le monde industriel.

« VoiceXML 2.0 modifie la manière dont sont développés les services et informations de téléphonie. Nous n'aurons plus à appuyer sur les touches clavier de notre téléphone, car nous serons capables, avec la parole, de réaliser des sélections et d'envoyer des informations, » explique Dave Raggett, responsable de l'activité Navigateur Vocal (Voice Browser) du W3C . « De plus, VoiceXML 2.0 est adapté pour les personnes malvoyantes, ou pour les personnes qui ont besoin d'accéder au Web dans des situations qui ne permettent pas de se servir d'un clavier ou un écran. Un exemple est le fait de pouvoir accéder, tout en conduisant, à un service Web d'aide à la navigation routière. »

SRGS permet une reconnaissance efficace des réponses utilisateurs

La spécification Grammaire de Reconnaissance de la Parole (SGRS) guide la reconnaissance en apportant la description des réponses possibles, permettant ainsi une reconnaissance efficace des interactions de n'importe quel utilisateur.

SRGS gère à la fois la parole et les touches DTMF. La prise en compte des touches DTMF est très utile dans des environnements bruyants ou quand il est gênant de parler. Les outils de reconnaissance vocale sont généralement capables de donner de fidèles résultats, c'est à dire la possibilité de reconnaître correctement un mot ou une phrase, et peuvent fournir d'autres choix probables lorsque l'outil n'est pas certain de ce qu'a prononcé l'interlocuteur.

SRGS peut également interpréter d'autres formats que la parole, et il est ainsi capable de reconnaître parfaitement l'écriture manuscrite dès que l'utilisateur emploie un ensemble de mots bien définis à l'avance.

Adoption notable de VoiceXML 2.0 et de SRGS dans le monde industriel

L'avancement de tout document W3C au stade de Recommandation doit être justifié par l'existence d'au moins deux implémentations interopérables et indépendantes : il doit être prouvé que les spécifications sont opérationnelles. Dans le cas de VoiceXML 2.0, ce critère est largement dépassé puisqu'on dénombre au moins huit implémentations connues, à la fois au sein de prototypes et de produits disponibles sur le marché. Une liste complète de ces implémentations est disponible. Quant à SGRS, son rapport d'implémentation comporte six implémentations indépendantes et complètes de la spécification.

VoiceXML 2.0 dispose d'une importante collection de tests publique, dont le nombre devrait dépasser 600 dans sa version finale (la première version en comportait 300). Elle complète la collection de tests de la spécification Grammaire de Reconnaissance de la Parole et la collection de tests du Langage de Synthèse Vocale devenue recommandation candidate en décembre 2003. Les suites de tests relatives aux autres spécifications faisant partie de la plate-forme Interface Vocale, comme l'Interprétation Sémantique pour la Reconnaissance de la Parole et CCXML, sont en cours de développement au sein du groupe de travail Navigateur Vocal, et seront publiées dans les prochains mois.

Le groupe de travail Navigateur Vocal du W3C doit donc continuer à travailler sur les spécifications restantes de la plate-forme Interface Vocal, mais il a aussi pour tâche d'écrire les prérequis d'une prochaine version majeure du langage qui se base sur le succès de VoiceXML 2.0 et qui incorpore les spécifications émergeantes liées à la voix, telles que SALT, XHTML+Voice et autres contributions des Membres W3C.

Ce groupe de travail est l'un des plus importants et des plus actifs au sein du W3C. Il est composé des membres W3C suivants : Aspect Communications ; BeVocal Inc. ; Canon ; Comverse Technology ; Convedia ; ERCIM ; France Telecom ; HeyAnita ; Hitachi ; HP ; IBM ; Intel ; IWA-HWG ; Loquendo ; Microsoft ; MITRE ; Mitsubishi Electric ; Motorola ; Nuance Communications ; Openstream ; SAP ; Scansoft ; Siemens ; Snowshore Networks ; Sun Microsystems ; Telera ; Tellme Networks ; Verscape ; VoiceGenie Technologies ; Voxeo et Voxpilot.

A propos du Consortium World Wide Web (W3C)

Le Consortium World Wide Web (W3C) a été créé pour mener le Web à son plein potentiel en développant des protocoles communs qui facilitent son évolution et assurent son interopérabilité. C'est un consortium industriel international, piloté conjointement par le Groupement Européen de Recherche en Informatique et en Mathématiques (ERCIM) basé en France, l'Université de Keio au Japon, et le Laboratoire d'Informatique et d'Intelligence Artificielle du MIT (MIT CSAIL) aux Etats-Unis. Les services fournis par le Consortium se composent de : la constitution et la mise à disposition d'informations concernant le World Wide Web à destination des développeurs et des utilisateurs ; la mise en oeuvre de logiciels permettant d'incorporer et de promouvoir les standards ; la mise en place de diverses applications prototypes visant à démontrer l'utilisation des nouvelles technologies. Aujourd'hui, le Consortium compte près de 400 Membres. Pour plus d'informations sur le Consortium World Wide Web, consulter l'adresse suivante : http://www.w3.org/.

Contacts Presse :

Amériques et Australie -- Janet Daly, <janet@w3.org>, +1.617.253.5884 ou +1.617.253.2613
Asie -- Yasuyuki Hirakawa <chibao@w3.org>, +81 466 49 1170
Europe -- Marie-Claire Forgue, <mcf@w3.org>, +33 4 92 38 75 94