World Wide Web Consortium publicerar SSML 1.0 som W3C-Recommendation

Högkvalitativt syntetiserat tal ger starkt stöd åt ramverk för talgränssnitt

Uttalanden (på engelska) finns även tillgängliga.

 

http://www.w3.org/ -- 8:e september 2004 -- I och med att World Wide Web Consortium (W3C) nu publicerar Speech Synthesis Markup Language (SSML) 1.0 som W3C Recommendation (dvs som webbstandard) har den talande webben tagit ännu ett steg framåt. SSML 1.0, en av de viktiga komponenterna i W3C:s ramverk för talgränssnitt, förhöjer nu kvaliteten hos tal i webbtillämpningar. Utvecklare av tillämpningar för mobiltelefoner, PDA:er och en rad andra framväxande teknologier, använder SSML 1.0 för att kunna ha såväl grovkornig som finkorning styrning av viktiga aspekter på talsyntes, bl.a. uttal, volym och tonhöjd. I likhet med de komplementära W3C-standarderna VoiceXML 2.0 och Speech Recognition Grammar Specification (SRGS), framtagna av W3C:s arbetsgrupp för talinteraktion (Voice Browser Working Group), är SSML 1.0 byggt för integration med andra webbteknologier och för att stödja interoperabilitet över olika talsyntesplattformar.

"Jag gläder mig oerhört över de framsteg som arbetsgruppen för talinteraktion gjort för att, med användning av webbteknologier, underlätta åtkomst via telefon till tjänster," säger W3C:s ledare Tim Berners-Lee, som är inbjuden talare på nästa veckas SpeechTEK-konferens. Han tillägger att "företag kan nu erbjuda sina kunder webbaccess från telefon såväl som från en PC."

W3C:s ramverk för talgränssnitt, som siktar mot att stödja den stora grupp på ungefär två miljarder användare av fasta och mobila telefoner, är en samling av specifikationer för hur man kan bygga talbaserade tillämpningar på webben. En direkt effekt av ramverket är att en gigantisk mängd användare kan använda telefon för att utnyttja webbaserade tjänster via telefoners knappsatser, styra med tal, och lyssna på inspelat tal, syntetiserat tal och musik.

Att en standard är en World Wide Web Consortium (W3C) Recommendation betyder i praktiken att det är en webbstandard. Varje Recommendation är en stabil specifikation som utvecklats av en arbetsgrupp inom W3C och som granskats av W3C:s medlemmar. Recommendations från W3C bidrar till interoperabilitet mellan webbteknologier, genom att de explicit uttrycker den industrikonsensus som uppnåtts inom arbetsgruppen.

En rik vokabulär för högkvalitativt tal

En av de viktigaste utmaningarna för SSML, i arbetet mot den talande webben, är hantering av uttal. Ett exempel på problemet är hur man bör uttala "1/2". Specifikationen SSML 1.0 använder detta enkla exempel som en illustration av några av de svårigheter man har med att förvandla allmän text till meningsfullt syntetiserat tal. Om man inte vet något om i vilket sammanhang "1/2" förekommer, så kan man inte veta om det skall uttalas "en halv", "första februari", "andra januari" eller "ett dividerat med två". SSML 1.0 ger medel varmed sådan tvetydighet kan elimineras. Vokabulären i SSML tillåter styrning av utmatning på ordnivå, på fonemnivå, och till och med på vågformsnivå, för att kunna stödja en bred uppsättning tillämpningsscenarier och författarkrav.

"SSML bygger vidare på resultat som tagits fram av pionjärerna inom talsyntes, med målet att erbjuda tillämpningsutvecklare ett kraftfullt och flexibelt medel för att leverera en högkvalitativ blanding av syntetiskt tal och förinspelat tal som del i en interaktiv talsvarstillämpning," säger Dave Raggett, ledare för W3C:s arbete med talinteraktion och stödd av Canon. Han tillägger: "Med SSML kan VoiceXML-baserade tjänster åtkommas över text-telefoner av de som har tal- eller hörselproblem. Dessutom är SSML en bra grund för användning bortom VoiceXML - det vi ser som framväxande standarder för multimodal interaktion."

På samma sätt som XHTML, är SSML ett uppmärkningsspråk baserat på den vitt spridda XML-standarden. Ett dokument kan i sin helhet utgöras av SSML-innehåll, men likaväl kan SSML-innehåll bäddas in som element i annat XML-innehåll sör att underlätta dess presentation som syntetiserat tal. SSML är speciellt lämpat att användas i en VoiceXML-inbäddning - t.ex. då man bygger en interaktiv talsvarstillämpning.

SSML 1.0 är byggt för att även kunna integreras i webben på andra sätt. Arbetsgruppen för talinteraktion har nära samarbetat med andra grupper inom W3C för att säkerställa att designen av SSML 1.0 är konsistent med etablerade principer för tillgänglighet, internationalisering och den allmänna webbarkitekturen. En viktig tillämpning av SSML är just texttelefoner, telefoner som kan utnyttjas av användare med hörselskador. Samma innehåll som kan presenteras på texttelefon kan också användas för att generera tal på en vanlig telefon. SSML 1.0 är också konsistent med tidigare arbeten inom W3C om hur tal kan beskrivas i Cascading Style Sheets (CSS). W3C:s arbetsgrupp för CSS utvecklar nu en talmodul för CSS3, så att XML-dokument kan presenteras med SSML-baserade talgeneratorer.

Tidigt anammande av industrin

W3C:s arbetsgrupp för talstyrning har varit framgångsrik i sitt arbete med att få specifikationer accepterade inom industrin, redan innan dessa specifikationer nått status Recommendation. En testsvit (beskriven i SSML implementeringsrapport - juli 2004) har hjälpt till att uppnå konsistens i beteende och kvalitet hos redan existerande implementationer av SSML 1.0. Bland de produktleverantörer som redan har implementerat SSML 1.0 och som deltar i arbetsgruppen återfinns: Aspect Communications, France Telecom, Hewlett-Packard, IBM, Loquendo, Microsoft, MITRE, Nuance Communications, SAP, ScanSoft, Sun Microsystems, VoiceGenie Technologies, Voxeo, och Voxpilot.

Arbetsgruppen skall nu fokusera sitt arbete på de återstående delarna av ramverket för talgränssnitt. "Efter VoiceXML 2.0 och Speech Recognition Grammar Specification (SRGS) är nu SSML det tredje språket i W3C:s ramverk för talgränssnitt som blivit Recommendation," säger Jim Larson, chef för arbetet med avancerad MMI på Intel, och dessutom vice ordförande i W3C:s arbetsgrupp för talstyrning. "Vi håller på att fullborda arbetet med andra språk i W3C:s ramverk för talgränssnitt, bl.a. VoiceXML 2.1, Semantic Interpretation och Call Control eXtensible Markup Language (CCXML)."

Arbetsgruppen är en av de största och mest aktiva inom W3C. Bland dess medlemmar återfinns: Aspect Communications, BeVocal, Brooktrout Technology, Canon, Comverse Technology, Convedia, Electronic Data Systems, France Telecom, Genesys Telecommunications Laboratories, HeyAnita, Hitachi, Hewlett-Packard, IBM, Intel, IWA-HWG, Korea Association of Information and Telecommunication, Loquendo, Microsoft, MITRE, Mitsubishi Electric, Motorola, Nokia, Nuance Communications, Openstream, SAP, ScanSoft, Siemens, Sun Microsystems, Syntellect, Tellme Networks, Verascape, Vocalocity, VoiceGenie Technologies, Voxeo, och Voxpilot.

Om World Wide Web Consortium (W3C)

W3C skapades för att leda webben till sin fulla potential, genom att utveckla gemensamma protokoll som bidrar till webbens utveckling och säkrar dess interoperabilitet. W3C är ett internationellt industri-konsortium som drivs gemensamt av Computer Science and Artificial Intelligence Laboratory (MIT CSAIL) i USA, European Research Consortium for Informatics and Mathematics (ERCIM) med högkvarter i Frankrike, och Keio University i Japan. Bland de tjänster som konsortiet erbjuder finns t.ex. databaser med information om webben, riktat till såväl utvecklare som användare, och olika prototyper och exempeltillämpningar, som demonstrerar användandet av ny teknologi. Idag är närmare 400 organisationer medlemmar i konsortiet. Mer information finns på http://www.w3.org/

 

Kontaktpunkt Amerika, Australien --
Karen Myers, <karen@w3.org>, +1.617.253.5884 eller +1.978.502.6218
Kontaktpunkt Europa --
Marie-Claire Forgue, <mcf@w3.org>, +33.492.38.75.94
Kontaktpunkt Asien --
Yasuyuki Hirakawa <yasuyuki@w3.org>, +81.466.49.1170