[Folie 1]
Diese Präsentation stellt gegenwärtige Standards, zukünftige Entwicklungen und
Prognosen über Standardisierungsthemen im W3C vor. Fokussiert werden für die
linguistische Datenverarbeitung relevante Bereiche.
[Folie 2]
Zunächst eine Wahrung: Diese Präsentation stellt eine private Sicht der Dinge dar.
Eine "offizielle" W3C Sicht zu Linguistik gibt es nicht, zumindest noch nicht. Ein
Beispiel hierfur ist die nicht vorhandene z.B. zeitliche "Kooperation" zwischen
LREC und WWW Konferenzen.
[Folie 3]
Folien und Notizen zur Präsentation. http://www.w3.org/2007/Talks/0410-gldv-fs/　http: //www.w3.org/2007/Talks/0410-gldv-fs/notes.txt
[Folie 4]
Zum Überblick: Am Anfang steht die Frage "Wo ist Linguistik im W3C zu finden?". Es
folgt eine Vorstellung eines verbindenden Standards, der in vielen (angehenden)
Spezifikationen verwendet wird. Anschließend werden Beispiele von aktuellen
Arbeiten aus den hier aufgelisteten Bereichen präsentiert. Den Abschluss bilden
Prognosen über die Zukunft der linguistischen Datenverarbeitung im W3C.
[Folie 5]
Zwischenfolie
[Folie 6]
Linguistik im W3C hat keinen festen Bereich. Wie eingangs erwähnt ist die
Kooperation auch mit großen linguistischen Foren noch nicht ausgereift, und die
Verbindung meist punktuell. So ist die Liste auf dieser Folie als meine "private
Sicht" zu genießen. Sie umfasst: den IETF Standard BCP 47 ("Best Common Practice
for Language Identification and Language Tag Matching") als einen verbindenden
Standard mit Anwendungen in vielen Technologien, XQuery 1.0 und XSLT 2.0 zur
Textmanipulation, Den Working Draft "Language Tags and Locale Identifiers for the
World Wide Web" (LTLI) für Metadaten zu Sprache und "locale" im Web, ITS 1.0 zum
Ausdruck von Informationen über Textdaten vornehmlich zum Zweck der
Internationalisierung und Lokalisierung, den SSML 1.1 Working Draft als Beispiel
für den Bereich Speech, RDDL und GRDDL als Mittel der Ressourcenverknüpfung, sowie
"Semantic Annotations for WSDL and XML Schema" (SWASDL) u.a. angehende Standards
zum Thema semantische Annotation.
[Folie 7]
Zwischenfolie
[Folie 8]
Den Anfang macht der IETF Standard BCP 47 ("Best Common Practice for Language
Identification and Language Tag Matching"). BCP 47 ist ein IETF ("Internet
Engineering Taskforce") Standard zur Repräsentation von Sprachidentifikatoren. BCP
47 wird zur Zeit repräsentiert durch die RFCs ("Request for Comments") 4646 "Tags
for Identifying Languagesünd RFC 4647 "Matching of Language Tags". Einige nicht
linguistische Anwendungsgebiete sind auf der Folie dargestellt. Für die
linguistische Datenverarbeitung ist BCP 47 Grundlage einer nachhaltigen Erzeugung
und Repräsentation von potentiell multilingualen Korpusdaten.
[Folie 9]
Sprachspezifisches Layout unter Rückgriff auf BCP 47 können moderne Browser
realisieren. Die Folie zeigt den HTML Quellcode und eine Visualisierung des
ideographischen Zeichens für Schnee. Die vier Varianten nutzen BCP 47
Identifikatoren, so genannte "language tags": "zh-CN" für "zh" Chinesich in der
Region "CN" Chinesisches Festland (Mandarin), "zh-HK" für "zh" Chinesich in der
Region "HK" Hong Kong (Kantonesisch), und zwei Varianten für Japanisch "ja” und
Koreanisch "ko".
[Folie 10]
"Language Tags" nach BCP 47 folgen der dargestellten Gramatik: ein "language tag"
besteht aus potentiell mehreren "sub tags" mit Informationen über Sprache, Skript,
Region, registrierte Varianten, Extensionen oder private "sub tags". BCP 47 umfasst
hauptsächlich "sub tags" die durch die ISO normiert werden, insbesondere die ISO
639 Serie (Die Präsentation von Lee Gillam und anderen auf der GLDV Tagung wird
diese ausführlicher vorstellen.). Updates durch die ISO werden überwacht und
koordiniert. IANA ("Internet Assigned Numbers Authority") stellt ein "language
subtag registry" bereit. Es erlaubt die Validierung eines "language tag", die zu
einem gegebenen Zeitpunkt registriert sind.
[Folie 11]
Hier sind einige Beispiele von BCP 47 "language tags" zu sehen.
[Folie 12]
Zwischenfolie
[Folie 13]
Es ist inzwischen nahezu "Folklore", dass neue Technologien XML und Unicode (meist
in der Kodierung utf-8) zur Repräsentation von (textuellen) Dokumenten benutzten.
Anfang des Jahres wurden mehrere Standards zur Dokumentmanipulation verabschiedet:
XQuery 1.0 und XSLT 2.0. Diese bauen auf dem gleichen Daten-, Typen- und
Dokumentpfadmodell, den gleichen Funktionen und Operatoren sowie
Serialisierungsparametern auf. Ihr Hauptunterschied liegt in der Ausrichtung auf
Suche und Verknüpfung von Informationen in XQuery 1.0 versus Dokumentransformation
in XSLT 2.0.
[Folie 14]
Eine angehende Ergänzung zu XQuery ist die Arbeit an Volltextsuche "XQuery 1.0 and
XPath 2.0 Full-Text". Dieser Working Draft erweitert XQuery 1.0 und XPath 2.0 um
Operatoren zur Phrasen- und Wortsuche sowie Matchoptionen hinsichtlich Stemming,
Diakritika, Stopwörter etc. Die Nutzung insbesondere entsprechender
Zusatzinformationen (Lexika, Algorithmen etc.) ist implementationsabhängig. D.h.,
die Spezifikation stellt nur "Scharniere" bereit, um Interoperabilität zwischen
Implementationen zu gewährleisten. Wie Implementationen diese Scharniere nutzen,
ist ein wesentlicher Teil der Konkurrenz am Markt.
[Folie 15]
Hier wird ein Beispiel für Volltextsuche über Elementgrenzen hinweg präsentiert.
Gesucht werden soll die Phrase "nicht aber" in Inputdaten mit unterschiedlicher
Auszeichnungsstruktur. Dies ist mit der Option "window" möglich.
Das zweite Beispiel zeigt die Nutzung von BCP 47: die Stemming Option für die
Sprache Deutsch selektiert Ressourcen für das Deutsche, so dass "mag" gefunden
wird.
[Folie 16]
Zwischenfolie
[Folie 17]
Das W3C arbeitet an dem Thema "Language Tags and Locale Identifiers for the World
Wide Web" (LTLI) und nutzt dabei BCP 47 als die Grundlage zur Sprachidentifikation.
Das Ziel ist eine nicht normative Unterscheidung der Konzepte "language" versus
"locale und die Nutzung von Identifikatoren in verteilten Szenarien, hauptsächlich
Web Services.
[Folie 18]
Das Konzept "locale" ist grob gesagt eine Menge von Nutzerpräferenzen. "locale"
lässt sich allerdings nicht klar und normativ definieren. Zu unterschiedlich gehen
verschiedene Standardisierungsbestrebungen vor. So umfasst z.B. ein POSIX
Identifikator Zeichenkodierungsinformationen, im Gegensatz zu anderen Modellen.
Auch die Frage ob Sprachidentifikatoren fester Bestandteil von "localeßind lässt
sich nicht eindeutig beantworten. Sprachunabhängige Beispiele sind "locale"
Informationen zu Währung und Zeitzonen. Deshalb strebt das LTLI Dokument keine
normative Definition des "locale" Konzepts an.
[Folie 19]
Hier wird ein Beispiel für "locale" Information gegeben. Das Unicode CLDR "Common
Locale Data Registryßtellt Sprache in das Zentrum von "locale" und definiert
"locale_ids" Erweiterung von BCP 47 "language tags" (einziger Unterschied zwischen
BCP 47 und CLDR ist der Separator zwischen "sub tags": "-" versus "_".). Die
Optionen in der Erweiterung umfassen z.B. die Angabe einer Kollation. Im Beispiel
wird deutsche Sprache in der Region Deutschland mit der Option
"Telephonbuchkollation ausgewählt.
[Folie 20]
Zwischenfolie
[Folie 21]
ITS 1.0 ("Internationalization Tag Set 1.0") ist eine der neusten "Recommendation"
des W3C und stellt Markup für so genannte "data categories" zur
Internationalisierung und Vorbereitung von Lokalisierung bereit. Die "data
categories" von ITS 1.0 sind auf dieser Folie zusammengefasst.
[Folie 22]
Der Ausdruck "data categories" wird in ITS 1.0 genutzt weil die verschiedenen
abstrakt beschriebenen ITS Informationen ("data categories") unterschiedlich
implementiert werden können: global versus lokal. Die Folie zeigt die lokale
Nutzung anhand der "Translate data category". Das ITS Attribut "its:translate"
drückt aus dass der Inhalt des <ident> Elements nicht übersetzt werden soll.
Jede "data category" beschreibt Defaultwerte und Vererbungsverhalten. So ist der
Default für "Translate" dass Elementinhalt übersetzbar ist und Attributinhalt
nicht. Wird "Translate" Information explizit (d.h. lokal oder global, vgl. nächste
Folie) ausgedrückt, wird sie vererbt auf Elementinhalt, aber nicht Attribute. D.h.,
potentiell eingebette Elemente in <ident> sind ebenfalls nicht übersetzbar.
[Folie 23]
Globale Nutzung von ITS 1.0 "data categories" geschieht in so genannten "rules"
Elementes, z.B. <its:translateRule>. Sie können im Dokument stehen, auf das sie
angewendet werden, oder unabhängig davon. Mit Hilfe von XPath im "selector"
Attribut spezifiert man selektierte Knoten, in diesem Fall alle <ident> Elemente.
Diese Knoten erhalten die Übersetzbarkeitsinformation "translate='no'".
[Folie 24]
Eine weitere Variante der globalen Nutzung von ITS 1.0 ist der Verweis auf
existierende Informationen ("pointing to existing information"). Diese Technik
hilft, existierende Werte in unterschiedlichem Markup aufzugreifen. Das Beispiel
zeigt die "language information data categoryünd ein entsprechendes <its:langRule>
Element. Der XPath Ausdruck im "selector" Attribut selektiert alle Elemente mit
einem "langinfo" Attribut. Das "langInfoPointer" Attribut enthält nun einen
weiteren (relativen) XPathausdruck, der den im Dokument existierenden Wert des
"langinfo" Attributes auswählt. Kurz gesagt drückt dieses <its:langRule> Element
aus: "langInfo Attribute, die sich an jedem Element im Dokument befinden können,
enthalten BCP 47 Werte".
Insbesondere für Sprachinformationen ist diese Technik nützlich, da BCP 47 Werte in
verschiedenen Attributen (z.B. "xml:lang” oder in HTML auch das "lang” " Attribut)
zu finden sind.
[Folie 25]
Diese Folie zeigt eine Anwendung der "Terminology data category". Mittels des
<its:termRule> Elements werden alle <span> Elemente mit einem "type='term'”
Attribut ausgewählt und als Term identifiziert. Sie erhalten zudem eine
termbezogene Zusatzinformation, welche mittels des "termInfoRef” Attributes
referenziert wird.
Das Beispiel zeigt, wie existierendes Markup zu ITS 1.0 Zwecken genutzt wird, ohne
bestehende Dokumente zu verändern: das ITS unspezifische Element <span> mit dem
Attribut "type='term'" wird mit der ITS spezifischen "Terminology data
categoryässoziiert. Dieser Mechanismus der Informationsverknüpfung ist
möglicherweise auch unabhängig von der Anwendungsdomäne "Internationalisierung vs.
Lokalisierung" von Nutzen.
[Folie 26]
Diese Folie zeigt eine Anwendung der "Elements Within Text data category". Das
<its:withinTextRule> Element beschreibt, ob Elemente im Fluss eines anderen
Elements eingebettet sind (z.B. das <span> Element), nicht eingebettet sind (z.B.
<s> und <cl>), oder eingebettet, aber einen eigenen Fluss konstituierend (das
<transkriptinfo> Element).
[Folie 27]
ITS 1.0 hat nicht den Lokalisierungsprozess selbst zum Gegenstand. ITS 1.0 stellt
Mechanismen bereit um Informationen zu XML Dokumenten und Schemata hinzuzufügen und
verschiedenen Folgeprozessen (zumeist im Rahmen der Lokalisierung) zugänglich zu
machen. Einige potentielle Beispielandwendungen, die ITS 1.0 Informationen nutzen
können, sind auf dieser Folie aufgeführt.
[Folie 28]
Zwischenfolie
[Folie 29]
Die Bereiche Speech und Multimodalität umfassen eine ganze Reihe von
Spezifikationen. VoiceXML ist ein Standard zur Beschreibung von Dialogen,
hauptsächlich für Applikationen, die (Mensch-Maschine) Konversationen beinhalten.
SISR ("Semantic Interpretation for Speech Recognition") stellt
Interpretationsregeln für "speech "grammars" bereit, dass in VoiceXML Applikationen
genutzt wird. SSML 1.1. ("Speech Synthesis Markup Language") dient der
Sprachsynthese, und PLS 1.0 ("Pronunciation Lexicon Specification (PLS) Version
1.0") ist die Grundlage für Aussprachebeschreibungen nach IPA oder einem anderen
phonetischem Alphabet. EMMA ("Extensible MultiModal Annotation markup language")
schließlich dient der Verknüpfung multimodaler Informationen.
[Folie 30]
Diese Folie demonstriert eine Anwendung von VoiceXML und SISR: Die Erkennung einer
Getränkebestellung. Das VoiceXML Dokument enthält eine Form mit der Anfrage "Was
möchten Sie trinken?". Zur Analyse der Anfrage wird die verlinkte Speech
Recognition Grammar drinks.xml genutzt. Auch in diesem VoiceXML Dokument wird
wieder Sprachinformation nach BCP 47 genutzt, vgl. das "xml:lang" Attribut.
[Folie 31]
Die verlinkte Speech Recognition Grammar nutzt Regeln zur Interpretation der
(Sprach)eingabe, die mittels SISR beschrieben sind. Sie sind hier in einer ABNF
Form wiedergegeben, können aber auch in XML repräsentiert werden. Die
Beispielregeln auf der Folie zeigen verschiedene Varianten von Getränken ("Bier”
oder "Sake") sowie Größen ("klein” oder "gross").
[Folie 32]
Aus der Anwendung dieser Interpretationsregeln auf das gegebene VoiceXML Dokument
und eine entsprechende Spracheingabe kann die "Speech Recognition Grammar" Regel
auf dieser Folie generiert werden.
[Folie 33]
PLS 1.0 kann Ausspracheinformationen sowohl zur Sprachsynthese als auch zur
Erkennung umfassen. Die Folie zeigt ein Beispiel der Sprachsynthese mittles SSML.
Das vom SSML Dokument verlinkte Lexikon enthält die Ausspracheinformationen welche
für die Generierung der Äusserung nötig ist.
[Folie 34]
Das Beispiel von EMMA schließslich zeigt, wie unterschiedliche Modalitäten im
Szenario der Getränkbestellung kombinierbar sind. Das "emma:hook” Attribut am
<location> Element legt fest, dass zur Interpretation der akustischen Eingabe die
Auswertung eines elektronischen Stifts ("ink") nötig ist.
[Folie 35]
Zwischenfolie
[Folie 36]
Die Verbindung von nicht unbedingt, aber auch potentiell linguistischen Ressourcen
kann auf zwei Wege geschehen: RDDL ("Resource Directory Description Language") oder
GRDDL ("Gleaning Resource Descriptions from Dialects of Languages").
[Folie 37]
Ein RDDL Dokument umfasst die natürlichsprachliche Beschreibung einer
Zielressource, und verlinkte Ressourcen mit Bezug auf die Zielressource. Die Links
haben eine "nature" wie z.B. den Link zum XML Schema Namensraum. Sie besitzen
außerdem einen "Zweck "purpose", z.B. "Validieren".
[Folie 38]
Die Folie zeigt eine Beispielanwendung von RDDL, die häufig im W3C zu finden ist:
Integration von RDDL Informationen in Namensraum beschreibenden Dokumenten. Im ITS
1.0 Namensraumdokument findet sich z.B. die RDDL Beschreibung der ITS 1.0
Spezifikation.
[Folie 39]
GRDDL dient der Extraktion von RDF (d.h. “semantic web") kompatiblen Daten aus XML
Dokumenten. RDDL stellt einen Typ solcher Daten dar, "Microformats" (die in letzter
Zeit mehr und mehr Anwendung finden) einen anderen. Das Anwendungsszenario
"Querying sites and digital libraries" wird nun kurz vorgestellt.
[Folie 40]
Vorraussetzung für dieses Szenario ist, dass die Eingabedokumente RDF kompatible
Informationen z.B. über Autor, Thema etc. beinhalten. Sie werden mit einer
projektspezifischen Transformation in ein RDF Format extrahiert. Darauf aufbauend
kann eine projektunspezifische Datenanalyse durchgeführt werden.
[Folie 41]
Zwischenfolie
[Folie 42]
Zum letzten, hier nur kurz angesprochenen Bereich: Metadaten über Ressourcen bzw.
semantische Annotationen. Dieses Thema wird im W3C sehr heterogen angegangen. So
findet sich eine angehende Spezifikation zu diesem Thema in einem Bereich, den man
nicht vermuten würde: Web Services. SWASDL ist ein Format für semantische
Annotationen für Web Service Beschreibungen in WSDL und XML Schema. Das Beispiel
auf der Folie zeigt XML Schema Dokument mit einer SWASDL Annotation. Das
“swasdl:modelReference" Attribut verweist auf eine Ontologie, die Informationen zum
<s> Element enthält.
[Folie 43]
Die drei auf diese Folie zusammengefassten Themen sind mit Vorsicht zu genießen:
Sie werden nicht in Working Groups bearbeitet, sondern in so genannten "Incubator"
(XG) Gruppen. Das heißt, sie unterliegen keinem Review durch das W3C Team, die W3C
Mitglieder oder der Allgemeinheit. Auch lässt sich nichts sagen über ihre
zukünftige Entwicklung.
Die "Common Web Language" ist einer Art Interlingua. Sie soll die Konversion
zwischen verschiedenen natürlichen Sprachen bis zu einem gewissen Grad erlauben.
Zudem soll sie die Basis für die Beschreibung kontrollierter Sprachen bilden.
Hauptanwendungsdomäne ist die Beschreibung von Webseiteninhalten.
Die "Multimedia Semantics Incubator Group" fokussiert Bildannotationen.
Insbesondere der Bezug zwischen MPEG-7 und den Metadatenbestrebungen im Rahmen des
"semantic web" wird thematisiert. Diese Gruppe hat bereits einen weit gediehenen
Report zur Analyse existierender Ansätze zu diesem Zweck erstellt, vgl.
http://www.w3.org/2005/Incubator/mmsem/wiki/Vocabularies .
Der "Emotion" Incubator schließlich befasst sich mit Emtionen. Ziel ist eine
"Emotion Annotation and Representation Language", die in existierenden W3C
Standards eingefügt werden können soll.
[Folie 44]
Zwischenfolie
[Folie 45]
Themen, die das W3C in Zukunft angehen könnte, sind hier aufgelistet. Es handelt
sich wieder im meine private Sicht, ein wenig durch Konversationen mit Kollegen
angereichert.
Das Hosting von standardisierten Ontologien wird in letzter Zeit von der "semantic
web" Gemeinde zunehmend gefordert. Das W3C würde hierbei nur den logistischen und
öffentlichen Rahmen bieten, nicht aber an der Ontologiebeschreibung selbst
teilnehmen.
Linguistische Informationen in XML Dokumente einzufügen ist eine Thematik, die
mittels der für ITS 1.0 entwickelten Mechanismen angegangen werden könnte. Die ITS
Working Group arbeitet *nicht* an diesem Thema, hat es aber in der Vergangenheit
diskutiert. So wie ITS 1.0 gegenwärtig die Referenzierung von termbezogenen
Informationen erlaubt, könnte die Verknüpfung mit linguistischen
Beschreibungskategorien möglich sein.
Im Rahmen dieser Diskussion hatte ich in letzter Zeit Kontakt zu einer ISO TC 37/4
Arbeitsgruppe, die an MLIF ("Multi Lingual Information Framework") arbeitet. MLIF
soll es u.a. erlauben, derartige linguistische Informationen in bestehende Formate
einzubringen. Die Entwicklung von MLIF scheint jedoch noch sehr am Anfang zu
stehen.
[Folie 46]
Ein Thema, das mit Sicherheit nicht im W3C bearbeitet werden wird, ist die
Standardisierung linguistischer Beschreibungskategorien selbst. Es kann im W3C
höchstens um Mechanismen der Assoziierung solcher Informationen mit anderen
Informationen gehen. Die Standardisierung linguistischer
(datenverarbeitungs)Prozesse wird sicher nicht als unmittelbares Thema im W3C
aufkommen. Allerdings können solche Prozessbeschreibungen von W3C
Standardisierungen gebrauch machen, vgl. z.B. das XML Processing Model
http://www.w3.org/TR/2007/WD-xproc-20070405/ .
In den letzten Jahren gab es vermehrten Input aus diversen linguistischen
Sprachräumen. Insbesondere Indien, welches 22 offizielle Sprachen besitzt, ist im
W3C und anderen Organisationen sehr aktiv, um die Internationalisierung des Webs
für seine hohen Anforderung zu sichern. In Indien gibt es nun eine verbreitete
Arbeit in der Sprachtechnologie, die allerdings offenbar wenig Kontakt hat zu
Standardisierungsaktivitäten in der ISO, insbesondere TC 37/4. Das W3C ist hier
kein direkter Ansprechpartner, kann aber möglicherweise vermittelnd helfen.
Dieses letzte Beispiel zeigt eine grundlegende Tendenz: die Schaffung von
Vorraussetzungen multilingualer Sprachverarbeitung über Themen bezogen auf die
Zeichenkodierung hinaus. Diese Tendenz ist sicher auszumachen, es wird aber noch
lange dauern bis man eine "W3C Recommendation" zu diesem Thema finden wird.