[Folie 1] Diese Präsentation stellt gegenwärtige Standards, zukünftige Entwicklungen und Prognosen über Standardisierungsthemen im W3C vor. Fokussiert werden für die linguistische Datenverarbeitung relevante Bereiche. [Folie 2] Zunächst eine Wahrung: Diese Präsentation stellt eine private Sicht der Dinge dar. Eine "offizielle" W3C Sicht zu Linguistik gibt es nicht, zumindest noch nicht. Ein Beispiel hierfur ist die nicht vorhandene z.B. zeitliche "Kooperation" zwischen LREC und WWW Konferenzen. [Folie 3] Folien und Notizen zur Präsentation. http://www.w3.org/2007/Talks/0410-gldv-fs/ http: //www.w3.org/2007/Talks/0410-gldv-fs/notes.txt [Folie 4] Zum Überblick: Am Anfang steht die Frage "Wo ist Linguistik im W3C zu finden?". Es folgt eine Vorstellung eines verbindenden Standards, der in vielen (angehenden) Spezifikationen verwendet wird. Anschließend werden Beispiele von aktuellen Arbeiten aus den hier aufgelisteten Bereichen präsentiert. Den Abschluss bilden Prognosen über die Zukunft der linguistischen Datenverarbeitung im W3C. [Folie 5] Zwischenfolie [Folie 6] Linguistik im W3C hat keinen festen Bereich. Wie eingangs erwähnt ist die Kooperation auch mit großen linguistischen Foren noch nicht ausgereift, und die Verbindung meist punktuell. So ist die Liste auf dieser Folie als meine "private Sicht" zu genießen. Sie umfasst: den IETF Standard BCP 47 ("Best Common Practice for Language Identification and Language Tag Matching") als einen verbindenden Standard mit Anwendungen in vielen Technologien, XQuery 1.0 und XSLT 2.0 zur Textmanipulation, Den Working Draft "Language Tags and Locale Identifiers for the World Wide Web" (LTLI) für Metadaten zu Sprache und "locale" im Web, ITS 1.0 zum Ausdruck von Informationen über Textdaten vornehmlich zum Zweck der Internationalisierung und Lokalisierung, den SSML 1.1 Working Draft als Beispiel für den Bereich Speech, RDDL und GRDDL als Mittel der Ressourcenverknüpfung, sowie "Semantic Annotations for WSDL and XML Schema" (SWASDL) u.a. angehende Standards zum Thema semantische Annotation. [Folie 7] Zwischenfolie [Folie 8] Den Anfang macht der IETF Standard BCP 47 ("Best Common Practice for Language Identification and Language Tag Matching"). BCP 47 ist ein IETF ("Internet Engineering Taskforce") Standard zur Repräsentation von Sprachidentifikatoren. BCP 47 wird zur Zeit repräsentiert durch die RFCs ("Request for Comments") 4646 "Tags for Identifying Languagesünd RFC 4647 "Matching of Language Tags". Einige nicht linguistische Anwendungsgebiete sind auf der Folie dargestellt. Für die linguistische Datenverarbeitung ist BCP 47 Grundlage einer nachhaltigen Erzeugung und Repräsentation von potentiell multilingualen Korpusdaten. [Folie 9] Sprachspezifisches Layout unter Rückgriff auf BCP 47 können moderne Browser realisieren. Die Folie zeigt den HTML Quellcode und eine Visualisierung des ideographischen Zeichens für Schnee. Die vier Varianten nutzen BCP 47 Identifikatoren, so genannte "language tags": "zh-CN" für "zh" Chinesich in der Region "CN" Chinesisches Festland (Mandarin), "zh-HK" für "zh" Chinesich in der Region "HK" Hong Kong (Kantonesisch), und zwei Varianten für Japanisch "ja” und Koreanisch "ko". [Folie 10] "Language Tags" nach BCP 47 folgen der dargestellten Gramatik: ein "language tag" besteht aus potentiell mehreren "sub tags" mit Informationen über Sprache, Skript, Region, registrierte Varianten, Extensionen oder private "sub tags". BCP 47 umfasst hauptsächlich "sub tags" die durch die ISO normiert werden, insbesondere die ISO 639 Serie (Die Präsentation von Lee Gillam und anderen auf der GLDV Tagung wird diese ausführlicher vorstellen.). Updates durch die ISO werden überwacht und koordiniert. IANA ("Internet Assigned Numbers Authority") stellt ein "language subtag registry" bereit. Es erlaubt die Validierung eines "language tag", die zu einem gegebenen Zeitpunkt registriert sind. [Folie 11] Hier sind einige Beispiele von BCP 47 "language tags" zu sehen. [Folie 12] Zwischenfolie [Folie 13] Es ist inzwischen nahezu "Folklore", dass neue Technologien XML und Unicode (meist in der Kodierung utf-8) zur Repräsentation von (textuellen) Dokumenten benutzten. Anfang des Jahres wurden mehrere Standards zur Dokumentmanipulation verabschiedet: XQuery 1.0 und XSLT 2.0. Diese bauen auf dem gleichen Daten-, Typen- und Dokumentpfadmodell, den gleichen Funktionen und Operatoren sowie Serialisierungsparametern auf. Ihr Hauptunterschied liegt in der Ausrichtung auf Suche und Verknüpfung von Informationen in XQuery 1.0 versus Dokumentransformation in XSLT 2.0. [Folie 14] Eine angehende Ergänzung zu XQuery ist die Arbeit an Volltextsuche "XQuery 1.0 and XPath 2.0 Full-Text". Dieser Working Draft erweitert XQuery 1.0 und XPath 2.0 um Operatoren zur Phrasen- und Wortsuche sowie Matchoptionen hinsichtlich Stemming, Diakritika, Stopwörter etc. Die Nutzung insbesondere entsprechender Zusatzinformationen (Lexika, Algorithmen etc.) ist implementationsabhängig. D.h., die Spezifikation stellt nur "Scharniere" bereit, um Interoperabilität zwischen Implementationen zu gewährleisten. Wie Implementationen diese Scharniere nutzen, ist ein wesentlicher Teil der Konkurrenz am Markt. [Folie 15] Hier wird ein Beispiel für Volltextsuche über Elementgrenzen hinweg präsentiert. Gesucht werden soll die Phrase "nicht aber" in Inputdaten mit unterschiedlicher Auszeichnungsstruktur. Dies ist mit der Option "window" möglich. Das zweite Beispiel zeigt die Nutzung von BCP 47: die Stemming Option für die Sprache Deutsch selektiert Ressourcen für das Deutsche, so dass "mag" gefunden wird. [Folie 16] Zwischenfolie [Folie 17] Das W3C arbeitet an dem Thema "Language Tags and Locale Identifiers for the World Wide Web" (LTLI) und nutzt dabei BCP 47 als die Grundlage zur Sprachidentifikation. Das Ziel ist eine nicht normative Unterscheidung der Konzepte "language" versus "locale und die Nutzung von Identifikatoren in verteilten Szenarien, hauptsächlich Web Services. [Folie 18] Das Konzept "locale" ist grob gesagt eine Menge von Nutzerpräferenzen. "locale" lässt sich allerdings nicht klar und normativ definieren. Zu unterschiedlich gehen verschiedene Standardisierungsbestrebungen vor. So umfasst z.B. ein POSIX Identifikator Zeichenkodierungsinformationen, im Gegensatz zu anderen Modellen. Auch die Frage ob Sprachidentifikatoren fester Bestandteil von "localeßind lässt sich nicht eindeutig beantworten. Sprachunabhängige Beispiele sind "locale" Informationen zu Währung und Zeitzonen. Deshalb strebt das LTLI Dokument keine normative Definition des "locale" Konzepts an. [Folie 19] Hier wird ein Beispiel für "locale" Information gegeben. Das Unicode CLDR "Common Locale Data Registryßtellt Sprache in das Zentrum von "locale" und definiert "locale_ids" Erweiterung von BCP 47 "language tags" (einziger Unterschied zwischen BCP 47 und CLDR ist der Separator zwischen "sub tags": "-" versus "_".). Die Optionen in der Erweiterung umfassen z.B. die Angabe einer Kollation. Im Beispiel wird deutsche Sprache in der Region Deutschland mit der Option "Telephonbuchkollation ausgewählt. [Folie 20] Zwischenfolie [Folie 21] ITS 1.0 ("Internationalization Tag Set 1.0") ist eine der neusten "Recommendation" des W3C und stellt Markup für so genannte "data categories" zur Internationalisierung und Vorbereitung von Lokalisierung bereit. Die "data categories" von ITS 1.0 sind auf dieser Folie zusammengefasst. [Folie 22] Der Ausdruck "data categories" wird in ITS 1.0 genutzt weil die verschiedenen abstrakt beschriebenen ITS Informationen ("data categories") unterschiedlich implementiert werden können: global versus lokal. Die Folie zeigt die lokale Nutzung anhand der "Translate data category". Das ITS Attribut "its:translate" drückt aus dass der Inhalt des Elements nicht übersetzt werden soll. Jede "data category" beschreibt Defaultwerte und Vererbungsverhalten. So ist der Default für "Translate" dass Elementinhalt übersetzbar ist und Attributinhalt nicht. Wird "Translate" Information explizit (d.h. lokal oder global, vgl. nächste Folie) ausgedrückt, wird sie vererbt auf Elementinhalt, aber nicht Attribute. D.h., potentiell eingebette Elemente in sind ebenfalls nicht übersetzbar. [Folie 23] Globale Nutzung von ITS 1.0 "data categories" geschieht in so genannten "rules" Elementes, z.B. . Sie können im Dokument stehen, auf das sie angewendet werden, oder unabhängig davon. Mit Hilfe von XPath im "selector" Attribut spezifiert man selektierte Knoten, in diesem Fall alle Elemente. Diese Knoten erhalten die Übersetzbarkeitsinformation "translate='no'". [Folie 24] Eine weitere Variante der globalen Nutzung von ITS 1.0 ist der Verweis auf existierende Informationen ("pointing to existing information"). Diese Technik hilft, existierende Werte in unterschiedlichem Markup aufzugreifen. Das Beispiel zeigt die "language information data categoryünd ein entsprechendes Element. Der XPath Ausdruck im "selector" Attribut selektiert alle Elemente mit einem "langinfo" Attribut. Das "langInfoPointer" Attribut enthält nun einen weiteren (relativen) XPathausdruck, der den im Dokument existierenden Wert des "langinfo" Attributes auswählt. Kurz gesagt drückt dieses Element aus: "langInfo Attribute, die sich an jedem Element im Dokument befinden können, enthalten BCP 47 Werte". Insbesondere für Sprachinformationen ist diese Technik nützlich, da BCP 47 Werte in verschiedenen Attributen (z.B. "xml:lang” oder in HTML auch das "lang” " Attribut) zu finden sind. [Folie 25] Diese Folie zeigt eine Anwendung der "Terminology data category". Mittels des Elements werden alle Elemente mit einem "type='term'” Attribut ausgewählt und als Term identifiziert. Sie erhalten zudem eine termbezogene Zusatzinformation, welche mittels des "termInfoRef” Attributes referenziert wird. Das Beispiel zeigt, wie existierendes Markup zu ITS 1.0 Zwecken genutzt wird, ohne bestehende Dokumente zu verändern: das ITS unspezifische Element mit dem Attribut "type='term'" wird mit der ITS spezifischen "Terminology data categoryässoziiert. Dieser Mechanismus der Informationsverknüpfung ist möglicherweise auch unabhängig von der Anwendungsdomäne "Internationalisierung vs. Lokalisierung" von Nutzen. [Folie 26] Diese Folie zeigt eine Anwendung der "Elements Within Text data category". Das Element beschreibt, ob Elemente im Fluss eines anderen Elements eingebettet sind (z.B. das Element), nicht eingebettet sind (z.B. und ), oder eingebettet, aber einen eigenen Fluss konstituierend (das Element). [Folie 27] ITS 1.0 hat nicht den Lokalisierungsprozess selbst zum Gegenstand. ITS 1.0 stellt Mechanismen bereit um Informationen zu XML Dokumenten und Schemata hinzuzufügen und verschiedenen Folgeprozessen (zumeist im Rahmen der Lokalisierung) zugänglich zu machen. Einige potentielle Beispielandwendungen, die ITS 1.0 Informationen nutzen können, sind auf dieser Folie aufgeführt. [Folie 28] Zwischenfolie [Folie 29] Die Bereiche Speech und Multimodalität umfassen eine ganze Reihe von Spezifikationen. VoiceXML ist ein Standard zur Beschreibung von Dialogen, hauptsächlich für Applikationen, die (Mensch-Maschine) Konversationen beinhalten. SISR ("Semantic Interpretation for Speech Recognition") stellt Interpretationsregeln für "speech "grammars" bereit, dass in VoiceXML Applikationen genutzt wird. SSML 1.1. ("Speech Synthesis Markup Language") dient der Sprachsynthese, und PLS 1.0 ("Pronunciation Lexicon Specification (PLS) Version 1.0") ist die Grundlage für Aussprachebeschreibungen nach IPA oder einem anderen phonetischem Alphabet. EMMA ("Extensible MultiModal Annotation markup language") schließlich dient der Verknüpfung multimodaler Informationen. [Folie 30] Diese Folie demonstriert eine Anwendung von VoiceXML und SISR: Die Erkennung einer Getränkebestellung. Das VoiceXML Dokument enthält eine Form mit der Anfrage "Was möchten Sie trinken?". Zur Analyse der Anfrage wird die verlinkte Speech Recognition Grammar drinks.xml genutzt. Auch in diesem VoiceXML Dokument wird wieder Sprachinformation nach BCP 47 genutzt, vgl. das "xml:lang" Attribut. [Folie 31] Die verlinkte Speech Recognition Grammar nutzt Regeln zur Interpretation der (Sprach)eingabe, die mittels SISR beschrieben sind. Sie sind hier in einer ABNF Form wiedergegeben, können aber auch in XML repräsentiert werden. Die Beispielregeln auf der Folie zeigen verschiedene Varianten von Getränken ("Bier” oder "Sake") sowie Größen ("klein” oder "gross"). [Folie 32] Aus der Anwendung dieser Interpretationsregeln auf das gegebene VoiceXML Dokument und eine entsprechende Spracheingabe kann die "Speech Recognition Grammar" Regel auf dieser Folie generiert werden. [Folie 33] PLS 1.0 kann Ausspracheinformationen sowohl zur Sprachsynthese als auch zur Erkennung umfassen. Die Folie zeigt ein Beispiel der Sprachsynthese mittles SSML. Das vom SSML Dokument verlinkte Lexikon enthält die Ausspracheinformationen welche für die Generierung der Äusserung nötig ist. [Folie 34] Das Beispiel von EMMA schließslich zeigt, wie unterschiedliche Modalitäten im Szenario der Getränkbestellung kombinierbar sind. Das "emma:hook” Attribut am Element legt fest, dass zur Interpretation der akustischen Eingabe die Auswertung eines elektronischen Stifts ("ink") nötig ist. [Folie 35] Zwischenfolie [Folie 36] Die Verbindung von nicht unbedingt, aber auch potentiell linguistischen Ressourcen kann auf zwei Wege geschehen: RDDL ("Resource Directory Description Language") oder GRDDL ("Gleaning Resource Descriptions from Dialects of Languages"). [Folie 37] Ein RDDL Dokument umfasst die natürlichsprachliche Beschreibung einer Zielressource, und verlinkte Ressourcen mit Bezug auf die Zielressource. Die Links haben eine "nature" wie z.B. den Link zum XML Schema Namensraum. Sie besitzen außerdem einen "Zweck "purpose", z.B. "Validieren". [Folie 38] Die Folie zeigt eine Beispielanwendung von RDDL, die häufig im W3C zu finden ist: Integration von RDDL Informationen in Namensraum beschreibenden Dokumenten. Im ITS 1.0 Namensraumdokument findet sich z.B. die RDDL Beschreibung der ITS 1.0 Spezifikation. [Folie 39] GRDDL dient der Extraktion von RDF (d.h. “semantic web") kompatiblen Daten aus XML Dokumenten. RDDL stellt einen Typ solcher Daten dar, "Microformats" (die in letzter Zeit mehr und mehr Anwendung finden) einen anderen. Das Anwendungsszenario "Querying sites and digital libraries" wird nun kurz vorgestellt. [Folie 40] Vorraussetzung für dieses Szenario ist, dass die Eingabedokumente RDF kompatible Informationen z.B. über Autor, Thema etc. beinhalten. Sie werden mit einer projektspezifischen Transformation in ein RDF Format extrahiert. Darauf aufbauend kann eine projektunspezifische Datenanalyse durchgeführt werden. [Folie 41] Zwischenfolie [Folie 42] Zum letzten, hier nur kurz angesprochenen Bereich: Metadaten über Ressourcen bzw. semantische Annotationen. Dieses Thema wird im W3C sehr heterogen angegangen. So findet sich eine angehende Spezifikation zu diesem Thema in einem Bereich, den man nicht vermuten würde: Web Services. SWASDL ist ein Format für semantische Annotationen für Web Service Beschreibungen in WSDL und XML Schema. Das Beispiel auf der Folie zeigt XML Schema Dokument mit einer SWASDL Annotation. Das “swasdl:modelReference" Attribut verweist auf eine Ontologie, die Informationen zum Element enthält. [Folie 43] Die drei auf diese Folie zusammengefassten Themen sind mit Vorsicht zu genießen: Sie werden nicht in Working Groups bearbeitet, sondern in so genannten "Incubator" (XG) Gruppen. Das heißt, sie unterliegen keinem Review durch das W3C Team, die W3C Mitglieder oder der Allgemeinheit. Auch lässt sich nichts sagen über ihre zukünftige Entwicklung. Die "Common Web Language" ist einer Art Interlingua. Sie soll die Konversion zwischen verschiedenen natürlichen Sprachen bis zu einem gewissen Grad erlauben. Zudem soll sie die Basis für die Beschreibung kontrollierter Sprachen bilden. Hauptanwendungsdomäne ist die Beschreibung von Webseiteninhalten. Die "Multimedia Semantics Incubator Group" fokussiert Bildannotationen. Insbesondere der Bezug zwischen MPEG-7 und den Metadatenbestrebungen im Rahmen des "semantic web" wird thematisiert. Diese Gruppe hat bereits einen weit gediehenen Report zur Analyse existierender Ansätze zu diesem Zweck erstellt, vgl. http://www.w3.org/2005/Incubator/mmsem/wiki/Vocabularies . Der "Emotion" Incubator schließlich befasst sich mit Emtionen. Ziel ist eine "Emotion Annotation and Representation Language", die in existierenden W3C Standards eingefügt werden können soll. [Folie 44] Zwischenfolie [Folie 45] Themen, die das W3C in Zukunft angehen könnte, sind hier aufgelistet. Es handelt sich wieder im meine private Sicht, ein wenig durch Konversationen mit Kollegen angereichert. Das Hosting von standardisierten Ontologien wird in letzter Zeit von der "semantic web" Gemeinde zunehmend gefordert. Das W3C würde hierbei nur den logistischen und öffentlichen Rahmen bieten, nicht aber an der Ontologiebeschreibung selbst teilnehmen. Linguistische Informationen in XML Dokumente einzufügen ist eine Thematik, die mittels der für ITS 1.0 entwickelten Mechanismen angegangen werden könnte. Die ITS Working Group arbeitet *nicht* an diesem Thema, hat es aber in der Vergangenheit diskutiert. So wie ITS 1.0 gegenwärtig die Referenzierung von termbezogenen Informationen erlaubt, könnte die Verknüpfung mit linguistischen Beschreibungskategorien möglich sein. Im Rahmen dieser Diskussion hatte ich in letzter Zeit Kontakt zu einer ISO TC 37/4 Arbeitsgruppe, die an MLIF ("Multi Lingual Information Framework") arbeitet. MLIF soll es u.a. erlauben, derartige linguistische Informationen in bestehende Formate einzubringen. Die Entwicklung von MLIF scheint jedoch noch sehr am Anfang zu stehen. [Folie 46] Ein Thema, das mit Sicherheit nicht im W3C bearbeitet werden wird, ist die Standardisierung linguistischer Beschreibungskategorien selbst. Es kann im W3C höchstens um Mechanismen der Assoziierung solcher Informationen mit anderen Informationen gehen. Die Standardisierung linguistischer (datenverarbeitungs)Prozesse wird sicher nicht als unmittelbares Thema im W3C aufkommen. Allerdings können solche Prozessbeschreibungen von W3C Standardisierungen gebrauch machen, vgl. z.B. das XML Processing Model http://www.w3.org/TR/2007/WD-xproc-20070405/ . In den letzten Jahren gab es vermehrten Input aus diversen linguistischen Sprachräumen. Insbesondere Indien, welches 22 offizielle Sprachen besitzt, ist im W3C und anderen Organisationen sehr aktiv, um die Internationalisierung des Webs für seine hohen Anforderung zu sichern. In Indien gibt es nun eine verbreitete Arbeit in der Sprachtechnologie, die allerdings offenbar wenig Kontakt hat zu Standardisierungsaktivitäten in der ISO, insbesondere TC 37/4. Das W3C ist hier kein direkter Ansprechpartner, kann aber möglicherweise vermittelnd helfen. Dieses letzte Beispiel zeigt eine grundlegende Tendenz: die Schaffung von Vorraussetzungen multilingualer Sprachverarbeitung über Themen bezogen auf die Zeichenkodierung hinaus. Diese Tendenz ist sicher auszumachen, es wird aber noch lange dauern bis man eine "W3C Recommendation" zu diesem Thema finden wird.