World Wide Web Consortium publicerar VoiceXML 2.0 och Speech Recognition Grammar som W3C Recommendations

Kritiska delar av W3C:s ramverk för talstyrda gränssnitt har nu blivit färdiga

Uttalanden (på engelska) finns också tillgängliga.

 

http://www.w3.org/ -- 16:e Mars 2004 -- I sitt arbete mot den talande webben har nu World Wide Web Consortium (W3C) publicerat VoiceXML 2.0 och Speech Recognition Grammar Specification (SRGS) som W3C Recommendations. Målsättningen med VoiceXML 2.0 är att förena fördelarna med webb-baserad utveckling och innehållsleverans med talstyrda interaktiva tillämpningar. SRGS är en nyckelkomponent i VoiceXML:s stöd för taligenkänning, och används av utvecklare för att beskriva slutanvändarnas svar på talade frågor.

I och med dagens offentliggörande har nu de två första specifikationerna i W3C:s ramverk för talstyrning fått status Recommendation. Med de närmare två miljarder sladd- och mobiltelefoner som finns i världen, så blir det nu möjligt för ett enormt antal användare att använda telefonen för att interagera med lämpligt utformade webb-tillämpningar, via knappsatser, talade kommandon samt att ta emot inspelat tal, syntetiskt tal och musik.

"En viktig milstolpe i konvergensen mellan telefoniteknologi och webbteknologi har nu nåtts, i och med att VoiceXML 2.0 och SRGS nu färdigställts. I det historiskt perspektivet har vi sett både tekniska och kulturella klyftor mellan talbaserade systems utveckling och Internets/webbens utveckling, något som gjort att information som är tillgänglig i den ena teknologin är omöjligt att nå från den andra," förklarar Tim Berners-Lee, W3C:s ledare. "I och med utvecklingen av W3C:s ramverk för talstyrda gränssnitt, som bl.a. innehåller VoiceXML 2.0 och SRGS, så kan vi nu integrera, och dra nytta av, styrkan hos dessa båda sektorer -- å ena sidan kraftfullheten hos och effekterna av industriell forskning och bred produkttestning och drifttagande, och å andra sidan öppenheten hos och utbyggbarheten av de tekniska lösningar som är konsistenta med webbens tekniska principer och är skalbara."

En World Wide Web Consortium (W3C) Recommendation uppfattas av industrin och av webbanvändare som en standard för webben. Varje Recommendation är en stabil specifikation, utvecklad av en arbetsgrupp (Working Group) inom W3C, och granskad av W3C:s medlemmar. Specifikationer i form av Recommendations bidrar till ökad interoperabilitet på webben, genom att de är ett uttryck för den konsensus som uppnåtts mellan industriella deltagare och andra intressenter i arbetsgruppen.

VoiceXML 2.0 och SRGS skapar grunden för W3C:s ramverk för talstyrda gränssnitt

I W3C:s ramverk för talstyrda gränssnitt är det VoiceXML som styr hur tillämpningen interagerar med användaren, medan Speech Synthesis Markup Language (SSML) används för talad utmatning, och Speech Recognition Grammar Specification (SRGS) för att styra taligenkännare m.h.a. grammatiker som beskriver vad användaren förväntas säga. I ramverket ingår även Voice Browser Call Control (CCXML), som erbjuder stöd för telefonuppringning via VoiceXML och andra dialoghanterare, liksom Semantic Interpretation for Speech Recognition, som definierar hur talgrammatiker knytes till tillämpningar.

VoiceXML 2.0 stöder tal och interaktivitet i W3C:s ramverk för talstyrda gränssnitt

Med VoiceXML 2.0 kan utvecklare skapa dialoger i talform, som innehåller syntetiserat tal, digitaliserat ljud, igenkänning av talad inmatning, av inmatning via knappsats, inspelning av tal, telefoni och flexibla dialogstrukturer. Innehåll uttryckt som VoiceXML laddas ner från HTTP-servrar, på samma sätt som HTML. Detta betyder att utvecklare av tillämpningar kan dra full nytta av brett tillgängliga och beprövade webbteknologier.

"VoiceXML 2.0 kan förändra sättet att utveckla telefonibaserade informations- och kundtjänster. Vi behöver inte längre trycka 'etta' för att välja det ena och 'tvåa' för att välja det andra. Istället kan vi göra val och ge information genom tal," säger Dave Raggett, ledare av W3C:s arbete med Voice Browser. "Dessutom gör VoiceXML 2.0 det möjligt för användare med synfel att använda webben, och likaledes de som behöver använda webben när deras händer och ögon är upptagna med annat, såsom att få vägledning när man kör bil."

SRGS ger stabilt stöd för igenkänning av talad inmatning

I grammatiken för taligenkänning, Speech Recognition Grammar Specification - SRGS, kan tillämpningar specificera de ord och fraser som användare ger som svar på frågor. Därmed uppnår man robust, talaroberoende, taligenkänning.

SRGS stöder såväl talad inmatning som inmatning med knappsats. Det är viktigt att kunna mata in kommandon och svar med hjälp av knappsaster, speciellt i miljöer med mycket störande ljud eller där omgivningen av andra skäl gör det olämpligt att uttrycka sig med tal. Taligenkännare kan i allmänhet ge information om hur säkra de är på att de uppfattat ord eller fraser korrekt, och kan ge en lista, ordnad efter sannolikhet, över de de mest troliga tolkningarna av vad användaren sa.

SRGS kan användas för mer än talad information, och har även med lyckat resultat använts för ingenkänning av handskriven text i situationer där användaren får använda en begränsad mängd ord.

VoiceXML 2.0 och SRGS har redan brett industristöd

För att en specifikation skall bli Recommendation måste det finnas ett flertal oberoende men interoperabla implementationer av specifikationen -- dvs specifikationen måste bevisbart fungera. För VoiceXML 2.0 finns rejäla bevis av implementerbarhet -- åtminstone åtta implementationer föreligger i antingen prototypform eller som produkter på marknaden. En fullständig förteckning över implementatörer finns tillgänglig. Implementeringsrapporten för SRGS beskriver åtminstone sex fullständiga och oberoende implementationer.

En omfattande offentlig testsvit finns tillgänglig. Dess första version innehöll 300 tester, men nu innehåller den mer än 600 olika tester. Utöver denna testsvit finns dessutom sedan tidigare en testsvit för Speech Recognition Grammar Specification och en testsvit för Speech Synthesis Markup Language, vilken blev W3C Candidate Recommendations i december 2003. Testsviter för de återstående specifikationerna i W3C:s ramverk för talstyrda gränssnitt, t.ex. Semantic Interpretation for Speech Recognition och CCXML, håller på att tas fram av W3C:s arbetsgrupp för Voice Browser, och de kommer att publiceras under de närmaste månaderna.

Utöver fortsatt arbete med ramverket för talstyrda gränssnitt håller arbetsgruppen för Voice Browser på att identifiera krav på nästa version av språket för tal-orienterad uppmärkning. Det kommer att bygga vidare på VoiceXML 2.0 och inkorporera ideer från SALT, XHTML+Voice och andra förslag som W3C:s medlemmar bidrar med.

Arbetsgruppen för Voice browser är en av de största och mest aktiva arbetsgrupperna i W3C. Balnd dess deltagare återfinns: Aspect Communications, BeVocal, Canon, Comverse Technology, Convedia, ERCIM, France Telecom, HeyAnita, Hitachi, HP, IBM, Intel, IWA-HWG, Loquendo, Microsoft, MITRE, Mitsubishi Electric, Motorola, Nuance Communications, Openstream, SAP, Scansoft, Siemens, Snowshore Networks, Sun Microsystems, Telera, Tellme Networks, Verscape, Vocalocity, VoiceGenie Technologies, Voxeo, och Voxpilot.

Om World Wide Web Consortium [W3C]

W3C skapades för att leda webben till sin fulla potential, genom att utveckla gemensamma protokoll som bidrar till webbens utveckling och säkrar dess interoperabilitet. W3C är ett internationellt industri-konsortium som drivs gemensamt av Computer Science and Artificial Intelligence Laboratory (MIT CSAIL) i USA, European Research Consortium for Informatics and Mathematics (ERCIM) med högkvarter i Frankrike, och Keio University i Japan. Bland de tjänster som konsortiet erbjuder finns t.ex. databaser med information om webben, riktat till såväl utvecklare som användare, och olika prototyper och exempeltillämpningar, som demonstrerar användandet av ny teknologi. Idag är närmare 400 organisationer medlemmar i konsortiet. Mer information finns på http://www.w3.org/

 

Kontaktpunkt Amerika, Australien --
Janet Daly, <janet@w3.org>, +1.617.253.5884 eller +1.617.253.2613
Kontaktpunkt Europa --
Marie-Claire Forgue, <mcf@w3.org>, +33.492.38.75.94
Kontaktpunkt Asien --
Yasuyuki Hirakawa <yasuyuki@w3.org>, +81.466.49.1170