World Wide Web Consortium מציג את SSML1

World Wide Web Consortium מציג את SSML 1.0 כהמלצת W3C.

תוך כדי חיזוק של ה-Web פירסם W3C את Speech Synthesis Markup Language ( SSML ) 1.0 בתור ההמלצה של W3C. SSML 1.0 הינו המפרט היסודי ב- W3C Speech Interface Framework שמעלה את החשיבות של השיחה המסונטזת באיכות גבוהה באינטרקציות של ה-Web. מפתחי אפליקציות לטלפונים ניידים, עוזרים דיגיטליים אישיים (PDA’s), והרבה טכנולוגיות קיימות משתמשות ב-SSML 1.0 כדי להשיג שליטה ברמה גסה או עדינה באספקטים חשובים של סינטזת השיחה, כולל מבטא, עוצמה וטונים. כמו עמיתיו ההמלצות W3C VoiceXML 2.0 ו-Speech Recognition Grammar Specification (SRGS) שפורסמו ע"י W3C Voice Browser Working Group, SSML 1.0 בנוי לאינטגרציה עם טכנולוגיות של ה-Web האחרות ולקידום ה- שיתופיות בין הפלאטפורמות הנועדות לסינטזות השונות.

אני נרגש מהתקדמות שה-Voice Browser Working Group עשתה בסיפוק הגישה המשופרת לשירותים באמצעות טלפונים דרך השימוש בטכנולוגיות של ה-Web" – כך אמר המנכל של ה-W3C Tim Berners Lee שנשא את הנאום המרכזי (keynote address ) ב-SpeechTEK Conference בשבוע הבא.

הוא הוסיף כי "חברות כעת יכולות להציע גישת ל-Web ללקוחותיהם באמצעות טלפון באותה איכות כמו דרך המחשב האישי."

,W3C’s Speech Interface Frameworkשמכוון לשני מיליארדים (בערך) טלפונים נייחים וניידים – הינו אוסף של מפרטים לבניית אפליקציות ה-Web – ירשה למספר אנשים חסר תקדים להשתמש בטלפון כלשהו ע"מ "לשוחח" עם שירות ה-Web מפותח בהתאם וזה באמצעות מקשים, פקודות קוליות, הקשבה לשיחה מוקלטת מראש, שיחות מסונטזות ומוסיקה.

ההמלצה של World Wide Web Consortium (W3C) נתפסת ע"י התעשייה בפרט והקהל של ה-Web בכלל כסטנדרט של הרשת. כל ההמלצה היא מפרט יציב המפותח ע"י Working Group ונידון ע"י חברי ה-W3C. ההמלצות מקדמות את השיתופיות בין הטכנולוגיות ה- Web באמצעות ההעברה מפורשת של מוסכמות תעשייתיות הנוצרות ע"י קבוצות העבודה (Working Group).

מילון עשיר לדיבור באיכות גבוהה

אחת הבעיות הראשונות לחיזוק הקול של ה-Web אשר SSML בא לפתור היא המבטא. למשל, כיצד אנו אומרים "1/2" ? המפרט SSML 1.0 משתמש בדוגמא הפשוטה הזו כדי להמחיש חלק של הקשיים בהפיכת טקסט כללי לגמרי לשיחה בעלת משמעות. ללא הקשר נוסף אי-אפשר לדעת האם לומר "חצי" או "שני לינואר" או "ראשון לפברואר" או "אחד חלקי שתיים". SSML 1.0 בונה מערך עזר לסילוק של סוג כזה של דו-משמעויות. המילון של SSML מאפשר בקרה ברמות השונות: מילים, הגאים (פונמות) ואפילו waveform של הפלט ובכך מספק ספקטרום רחב של תסריטי אפליקציות ודרישות אוטוריזציה.

"SSML נבנה על בסיס עבודתם של חלוצי שיחות מסונטזות ומספק למפתחי האפליקציות אמצעים כדי לאפשר תערובת של שיחה מסונטזת ומוקלטת מראש באיכות גבוהה כחלק משירותי תגובה קולית אינטרקטיבית" אמר Dave Ragget , Activity Lead של עבודת ה-W3C על דפדפנים קוליים, וחבר של W3C מ-Canon. הוא הוסיף כי "SSML מאפשר לשירותים מבוססי VoiceXML להיות זמינים דרך טלפונים לאנשים עם מגבלות שמיעה ודיבור. בנוסף,SSML מבטיח הצלחה רבה עקב שילובו עם VoiceXML, כשאנחנו מסתכלים קדימה על סטנדרטים ל-multimodal interaction הקיימים."

כמו XHTML, SSML היא שפת סימון (mark-up) המבוססת על סטנדרט XML שנמצא בשימוש רחב . התוכן של SSML יכול להיות עצמאי או להיכלל בתוכן XML אחר על מנת לשפר ביצועי השיחה המסונטזת. באופן טבעי, SSML מותאם במיוחד לשימוש עם עטיפת VoiceXML כאשר בונים אפליקציות אינטרקטיביות מגיבות-קול.

SSML בנוי גם לאינטגרציה עם ה-Web בדרכים נוספות. קבוצת העבודה Voice Browser עבדה בצמוד עם הקבוצות ה-W3C האחרות כדי לוודא שמבנה של SSML 1.0 עקבי עם עקרונות הנגישות, הבהלאומיות והארכיטקטורה הכללית של ה-Web. אכן, אחת האפליקציות החשובות של SSML מושכת "text phones" שיכולים לשמש את האנשים עם בעיות שמיעה. אותו תוכן יכול להיות לפלט בשיחה דרך הטלפון הרגיל. SSML 1.0 עקבי גם עם העבודה הקודמת ב-W3C בנושא תיאור המבטא בעזרת Cascading Style Sheets (CSS). קבוצת העבודה CSS של W3C מפתחת מודול הדיבור ב-CSS3 לעשיית המסמכי XML עם כלים של דיבור וקול המבוססים על SSML.

האימוץ התעשייתי הראשוני

קבוצת העבודה Voice Browser של ה-W3C הצליחה חלקית לוודא את אימוץ מפרטיה לפני שקיבלו מעמד של "ההמלצה" (Recommendation Status). ערכת הבדיקה (שנדונה ב-July 2004 implementation report) עזרה לוודא את ההתנהגות העקבית והאיכותית בין מימושים של SSML 1.0 שמספרם כבר רב. יצרנים אשר כבר מימשו SSML 1.0 ומשתתפים בקבוצת עבודה כוללים: Aspect Communications, France Telecom, Hewlett-Packard, IBM, Loquendo, Microsoft, MITRE, Nuance Communications, SAP, ScanSoft, Sun Microsystems, VoiceGenie Technologies, Voxeo ו-Voxpilot.

קבוצת העבודה כעת תרכז את כוחותיה על שאריות של Speech Framework." אחרי VoiceXML 2.0 ו-Speech Recognition Grammar Specification(SRGS), SSML היא השפה השלישית של W3C Speech Interface Framework הופכת להמלצה מלאה של ה-W3C" כך אמר Jim Larson, מנהל, קלט/פלט אנושי מתקדם ב-Intel וגם אחד מיו"ר (co-chair ) של קבוצת עבודה W3C’s Voice Browser. "אנחנו עובדים כדי להשלים את העבודה על שפות אחרות של Speech Interface Framework של ה-W3C, כולל VoiceXML 2.1, Semantic Interpretation ו-Call Control eXtensible Markup Language (CCXML).

הקבוצת עבודה היא בין הגדולות והפעילות ב-W3C. המשתתפיה כוללים: Aspect Communications, BeVocal, Brooktrout Technology, Canon, Comverse Technology, Convedia, Electronic Data Systems, France Telecom, Genesys Telecommunications Laboratories, HeyAnita, Hitachi, Hewlett-Packard, IBM, Intel, IWA-HWG, Korea AssociationOf Information and Telecommunication, Loquendo, Microsoft, MITRE, Mitsubishi Electric, Motorola, Nokia, Nuance Communications, Openstream, SAP, ScanSoft, Siemens, Sun Microsystems, Syntellect, Tellme Networks, Verascape, Vocalocity, VoiceGenie Technologies, Voxeo ו-Voxpilot.

אודות World Wide Web Consortium ‏[W3C]

ה-W3C נוצר כדי להוביל את ה-Web לפוטנציאל המלא שלו באמצעות פיתוח פרוטוקולים נפוצים שמקדמים את התפתחותו ולהבטיח בין-מערכתיות. זוהי תעשייה בינלאומית הקונסורציום הורץ במשותף ע''י MIT Computer Science and Artificial Intelligence Laboratory ‏(CSAIL) בארה''ב, European Research Consortium for Informatics and Mathematics ‏(ERCIM)עם מטה בצרפת ואוניברסיטת Keio ביפן. השירותים ניתנים ע''י הקונסורציום כוללים: איחסון המידע על World Wide Web עבור המפתחים ומשתמשים, אבטיפוסים ודוגמאות מגוונים של אפליקציות כדי להציג את שימוש בטכנולוגיות חדשות. עתה קרוב ל-400 אירגונים הינם חברי הקונסורציום. למידע נוסף ראה http://www.w3.org .