Das World Wide Web Consortium bringt SSML 1.0 als eine W3C Empfehlung heraus

High-Quality synthetic Speech unterstützt das Speech Interface Framework

Referenzen sind ebenfalls erhältlich.

 

http://www.w3.org/ -- 8. September 2004 -- Um die Stimme des Webs zu stärken, hat das World Wide Web Consortium (W3C) die Speech Synthesis Markup Language (SSML) 1.0 als eine W3C Empfehlung herausgegeben. SSML 1.0, eine fundamentale Spezifikation in dem W3C Speech Interface Framework, erhöht die Bedeutung hochwertiger synthetischer Sprache bei Web-Interaktionen. Sowohl von Anwendungskonstrukteuren mobiler Telefone und Personal Digital Assistants (PDAs) als auch in einer Vielzahl von aufstrebenden Technologiezweigen wird SSML 1.0 genutzt, um eine Grob- und Feinkontrolle wichtiger Aspekte der synthetischen Sprache zu erreichen. Dies beinhaltet die Sprachbetonung, das Stimmvolumen und die Tonhöhe. Ebenso wie die W3C Empfehlungen VoiceXML 2.0 und Speech Recognition Grammar Specification (SRGS), die von der W3C Voice Browser Working Group veröffentlicht wurden, wurde SSML 1.0 für die Integration mit anderen Web-Technologien entwickelt. Darüber hinaus soll es die Interoperabilität zwischen verschiedenen, Speech Synthesis-fähigen Plattformen fördern.

"Ich bin sehr erfreut über den Fortschritt, den die Voice Browser Working Group durch die Bereitstellung eines verbesserten Zugangs zu Diensten über das Telefon durch die Nutzung von Web-Technologien erreicht hat," sagte der W3C Direktor Tim Berners-Lee, der nächste Woche eine programmatische Rede auf der SpeechTEK Conference halten wird. Er fügte hinzu, "Unternehmen haben nun die Möglichkeit, ihren Kunden den Zugang zum Web per Telefon als auch von einem Computer aus anzubieten."

Im Hinblick auf die weltweit geschätzten 2 Milliarden Festanschlüsse und Mobiltelefone, wird es das W3C Speech Interface Framework — eine Sammlung von Spezifikationen für die Entwicklung von Stimmanwendungen für das Web — einer beispiellosen Anzahl von Menschen ermöglichen, jedes Telefon für die Interaktion mit entsprechend konstruierten Web-basierten Diensten via Key Pads, gesprochener Befehle, der Erkennung zuvor aufgenommener Stimme, synthetischer Sprache und Musik zu nutzen.

Eine Empfehlung des World Wide Web Consortiums (W3C) wird sowohl von der Industrie als auch von der Web-Community im allgemeinen als ein Web-Standard verstanden. Jede Empfehlung ist eine gefestigte Spezifikation, die von einer W3C Working Group entwickelt und von dem W3C Membership überprüft wurde. Diese Empfehlungen fördern die Interoperabilität des Webs durch die Schaffung eines gemeinsamen Industriekonsenses, der durch die Working Group definiert wird.

Ein umfangreiches Vokabular für High-Quality Speech

Eine der primäreren Herausforderungen für SSML zur Stärkung der Stimme des Webs ist die Aussprache. Wie zum Beispiel spricht man "1/2" aus? Die SSML 1.0 Spezifikation führt dieses simple Beispiel an, um einige Anforderungen bei der Umwandlung eines allgemein gehaltenen Textes in sinnvolle künstliche Sprache darzustellen. Ohne jeglichen Zusammenhang könnte dies sowohl als "ein Halb" oder als "zweiter Januar" oder "erster Februar" oder "eins geteilt durch zwei" bedeuten. Die SSML 1.0-Konstruktion hilft, diese Art von Mehrdeutigkeit zu vermeiden. Das SSML-Vokabular ermöglicht eine Kontolle des Outputs auf Word-Level, Phoneme-Level und sogar auf Waveform-Level, um ein weitreichendes Spektrum von Anwendungsszenarien und maßgebenden Anforderungen zu bedienen.

"SSML gründet auf der Arbeit der Pioniere der künstlichen Sprache, die darauf abzielt, Anwendungsentwickler mit einem starken und flexiblen Mittel auszustatten, damit diese einen hochwertigen Mix aus synthetischer und aufgezeichneter Sprache als Teil interaktiver Voice-Response-Dienste liefern können," sagte Dave Raggett, Activity Lead der W3C Projekte an Voice-Browsern und ein W3C Fellow von Canon. Er fügte hinzu, "SSML ermöglicht es Menschen mit Sprach- oder Hörbehinderung, VoiceXML-basierte Dienste über Texttelefone zu erhalten. Auch im Hinblick auf die aufkommenden Standards für multimodale Interaktion erwarten wir von SSML - über die Verwendung für VoiceXML hinaus - sehr viel."

Ebenso wie XHTML ist SSML eine Markup-Language, die auf dem auf dem weitverbreiteten XML-Standard basiert. Der SSML-Content kann sowohl alleine bestehen als auch in andere XML-Contents integriert werden, um die Wiedergabe künstlicher Sprache zu verbessern. Beim Aufbau einer interaktiven Voice-Response Anwendung ist SSML besonders gut geeignet für die Benutzung mit einem VoiceXML-Wrapper.

SSML 1.0 wurde aber auch für andere Arten von Web-Integration erschaffen. Die Voice Browser Working Group arbeitete eng mit anderen Arbeitsgruppen des W3C zusammen, um sicherzustellen, dass das Design von SSML 1.0 mit den Prinzipien des Zugangs, internationaler Anforderungen und der generellen Web-Architektur in Einklang steht. In der Tat umfasst eine bedeutende Anwendung von SSML "Texttelefone", die von Menschen mit einer Hörbehinderung genutzt werden können. Derselbe Content kann ebenso Output in Form von Sprache eines üblichenTelefons sein. SSML 1.0 stimmt ebenfalls mit früherer Arbeit des W3C bezüglich der Beschreibung von Aussprache mit Cascading Style Sheets (CSS) überein. Die W3C CSS Working Group entwickelt ein Sprachmodul in CSS3, um XML Dokumente mit SSML-basierten Speech-Engines wiederzugeben.

Frühzeitige Annahme seitens der Industrie

Die W3C Voice Browser Working Group hat im Rahmen ihrer Arbeit insbesondere Wert darauf gelegt, dass ihre Spezifikationen angenommen wurden bevor sie Empfehlungsstatus erreichten. Ein Testlauf (besprochen in dem Juli 2004 SSML Implementation Report) hat geholfen, das übereinstimmende Verhalten und die Qualität zwischen den zahlreichen Anwendungen von SSML 1.0 sicherzustellen. Händler, die bereits SSML 1.0 eingeführt haben und die an der Working Group teilnehmen, sind unter anderem: Aspect Communications, France Telecom, Hewlett-Packard, IBM, Loquendo, Microsoft, MITRE, Nuance Communications, SAP, ScanSoft, Sun Microsystems, VoiceGenie Technologies, Voxeo und Voxpilot.

Die Working Group wird ihr Augenmerk nun auf die verbleibenden Punkte des Speech Framework richten. "Nach VoiceXML 2.0 und Speech Recognition Grammar Specification (SRGS) ist SSML nun die dritte Sprache des W3C Speech Interface Framework, die eine W3C Empfehlung wird," sagte Jim Larson, Manager, advanced human input/output, für Intel sowie Co-Chair der W3C Voice Browser Working Group. "Wir sind dabei, die Arbeit an anderen Sprachen des W3C Speech Interface Framework zu vervollständigen, einschließlich VoiceXML 2.1, Semantic Interpretation und Call Control eXtensible Markup Language (CCXML)."

Innerhalb des W3C ist diese Arbeitsgruppe die größte und die aktivste. Teilnehmer sind unter anderem: Aspect Communications, BeVocal, Brooktrout Technology, Canon, Comverse Technology, Convedia, Electronic Data Systems, France Telecom, Genesys Telecommunications Laboratories, HeyAnita, Hitachi, Hewlett-Packard, IBM, Intel, IWA-HWG, Korea Association of Information and Telecommunication, Loquendo, Microsoft, MITRE, Mitsubishi Electric, Motorola, Nokia, Nuance Communications, Openstream, SAP, ScanSoft, Siemens, Sun Microsystems, Syntellect, Tellme Networks, Verascape, Vocalocity, VoiceGenie Technologies, Voxeo und Voxpilot.

Über das World Wide Web Consortium [W3C]

Das W3C wurde gegründet, um alle Möglichkeiten des Webs zu erschließen. Dazu werden einheitliche Protokolle entwickelt, die den Fortschritt des Webs fördern und seine Interoperabilität sicherstellen. Das W3C ist ein internationales Industrie-Konsortium, das gemeinsam vom MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) in den USA, dem European Research Consortium for Informatics and Mathematics (ERCIM) mit Sitz in Frankreich und der Keio Universität in Japan geführt wird. Das Konsortium bietet folgende Dienstleistungen: Informationen über das World Wide Web für Entwickler und Benutzer sowie verschiedene prototypische und Musteranwendungen, um den Einsatz der neuen Technik zu demonstrieren. Gegenwärtig sind über 400 Organisationen Mitglieder des Konsortiums. Weitere Informationen finden Sie unter http://www.w3.org/.

Über das Deutsch-Österreichische Büro des W3C

Das Deutsch-Österreichische Büro des W3C (W3C.DE) im Fraunhofer-Institut für Medienkommunikation ist der Repräsentant des W3C für den deutschen Sprachraum. http://www.w3c.de/

 

Kontakt Amerika, Australien --
Karen Myers, <karen@w3.org>, +1.617.253.5884 or +1.978.502.6218
Kontakt Europa --
Marie-Claire Forgue, <mcf@w3.org>, +33.492.38.75.94
Kontakt Asien --
Yasuyuki Hirakawa <yasuyuki@w3.org>, +81.466.49.1170