W3C logo
slanted W3C logo

Cover page images (keys)

W3C und Linguistische Datenverarbeitung

Bestandsaufnahme, Perspektiven und Prognosen

Felix Sasaki, W3C

WARNUNG!

Material

Übersicht

Übersicht

Wo ist Linguistik im W3C?

Überblick

BCP 47: Standard zur Repräsentation von Sprachidentifikatoren

Beispiel: Sprachspezifisches Layout

<p xml:lang="zh-CN" lang="zh-CN">雪 zh-CN</p>
<p xml:lang="zh-HK" lang="zh-HK">雪 zh-HK</p> 
<p xml:lang="ja" lang="ja">雪 ja</p> 
<p xml:lang="ko" lang="ko">雪 ko</p>

雪 zh-CN

雪 zh-HK

雪 ja

雪 ko

Struktur von BCP 47 "language tags"

langtag = (language
 ["-" script]
 ["-" region]
 *("-" variant)
 *("-" extension)
 ["-" privateuse])
File-Date: 2006-04-19
%%
Type: language
Subtag: aa
Description: Afar
Added: 2005-10-16
%%
Type: variant
Subtag: 1901
Description: Traditional German orthography
Added: 2005-10-16
Prefix: de
%%

Beispiele

TagFormBedeutung
enlanguageEnglisch
de-ATlanguage-regionDeutsch in Österreich
de-CH-1901language-region-variantDeutsch in der Schweiz, Ortographie von 1901
sr-Cyrllanguage-scriptSerbisch im Kyrillischen Skript

Übersicht

Textrepräsentation und Manipulation

XQuery 1.0 und XPath 2.0 Volltextsuche

Volltextsuche: Beispiele

Variante Inputdaten:

<s><cl>Ich mag Tübingen </cl> <cl>nicht aber Tokyo</cl></s>
<s><cl>Ich mag Tübingen nicht</cl> <cl>aber Tokyo</cl></s>

übergreifende Suche:

//s[ftcontains "nicht" && äber" window 2 words]

Nutzung von BCP 47:

//s[ftcontains "mögen"  with stemming language "de"]

Übersicht

Die Rolle des W3C

Was ist eine "locale"?

"locale" Identifier Beispiel

Unicode "Common Locale Data Registry" CLDR Locale Identifier:

    locale_id := base_locale_id options?

    base_locale_id := bcp_47_identifier

    options := "@" key "=" type ("," key "=" type )*

Beispiel für "locale" spezifische Suche / Sortierung:

de_DE@collation=phonebook

Übersicht

Internationalization Tag Set

Markup für "data categories" zur Internationalisierung und Vorbereitung von Lokalisierung:

ITS: Einfache "lokale" Anwendung

<corpus xmlns="http://www.corpusdata.example.com"
 xmlns:its="http://www.w3.org/2005/11/its"
 its:version="1.0">
 <head>
  <title>Beispielsätze für Zweitsprachlerner</title>
  <ident its:translate="no">Zweitsprachlernerkorpus</ident> [...]
 </head>
 <body>
  <s><cl>Ich mag Tügbingen</cl> <cl>nicht aber Tokyo</cl></s>
  [...]</body>
</corpus>

ITS: "globale" Anwendung (1)

<its:rules xmlns:its="http://www.w3.org/2005/11/its" version="1.0">
 <its:translateRule selector="//cd:ident" translate="no"
  xmlns:cd="http://www.corpusdata.example.com"/>
</its:rules>
<corpus xmlns="http://www.corpusdata.example.com">
 <head>
  <title>Beispielsätze für Zweitsprachlerner</title>
  <ident>Zweitsprachlernerkorpus</ident>
  [...]
 </head>
 <body>
  <s><cl>Ich mag Tügbingen</cl> <cl>nicht aber Tokyo</cl></s>
  [...]</body>
</corpus>

ITS: "globale" Anwendung (2)

<corpus xmlns="http://www.corpusdata.example.com" langinfo="de">
 <its:rules xmlns:its="http://www.w3.org/2005/11/its" version="1.0">
  <its:langRule selector="/corpus//*[@langinfo] langInfoPointer="@langInfo"
  xmlns:cd="http://www.corpusdata.example.com"/>
 </its:rules>
 <head>[...]</corpus>

ITS: "Terminology" Beispiel

<corpus xmlns="http://www.corpusdata.example.com">
 <head>
  <title>Beispielsätze für Zweitsprachlerner</title>
  <ident>Zweitsprachlernerkorpus</ident>
<its:rules xmlns:its="http://www.w3.org/2005/11/its" version="1.0">
 <its:termRule selector="//cd:span[@type='term']" term="yes"
termInfoRef="http://termdatabase.example.com/entries/t4736"
  xmlns:cd="http://www.corpusdata.example.com"/>
</its:rules> [...]
 </head>
 <body>
  <s><cl>Ich mag japanische <span type="term">Spielekonsolen</span> sehr,
 nicht aber amerikanische</cl></s>
  [...]</body>
</corpus>

ITS: "Elements within Text" Beispiel

<corpus xmlns="http://www.corpusdata.example.com"
 xmlns:its="http://www.w3.org/2005/11/its"
 its:version="1.0">
 <head>
  <title>Beispielsätze für Zweitsprachlerner</title>
  <ident>Zweitsprachlernerkorpus</ident>
  <its:rules
  xmlns:its="http://www.w3.org/2005/11/its"  version="1.0">
 <its:withinTextRule withinText="yes" selector="//span"/>
 <its:withinTextRule withinText="no" selector="//s | //cl"/>
 <its:withinTextRule withinText="nested" selector="//transkriptinfo"/>
</its:rules>
  [...]
 </head>
 <body>
  <s><cl>Ich mag japanische <span type="term">Spielekonsolen</span>
 <transkriptinfo>Nicht sicher: "Spielekonsolen" oder "Spielkonsolen"?</transkriptinfo>
  sehr, nicht aber amerikanische</cl></s>
  [...]</body>
</corpus>

Anwendungen von ITS

Übersicht

Speech und Multimodalität

Anwendung von VoiceXML und SISR

<vxml xmlns="http://www.w3.org/2001/vxml" 
  xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
  xsi:schemaLocation="http://www.w3.org/2001/vxml 
   http://www.w3.org/TR/voicexml20/vxml.xsd"
   version="2.0" xml:lang="de">
  <form>
  <field name="drink">
     <prompt>Was möchten Sie trinken?</prompt>
     <grammar src="drink.grxml" type=äpplication/srgs+xml"/>
  </field>
  <block>
     <submit next="http://www.drink.example.com/drink2.asp"/>
  </block>
 </form>
</vxml>

SISR Grammatik

#ABNF 1.0 UTF-8;
language de;
mode voice;
tag-format <semantics/1.0>;
root $order;
$order = Ich m&ouml;chte $drink {out.drink = new Object();
         out.drink.liquid = rules.drink.type;
         out.drink.drinksize = rules.drink.drinksize;};
$kindofdrink = "Bier"{out="beer";} | "Sake"{out="sake";} 
// "medium" is default if nothing said
$foodsize = {out="medium";}
            [klein {out="small";} | gross {out="large";}];
// Two properties (drinksize, type) on left hand side Rule Variable
$drink = $foodsize $kindofdrink
         {out.drinksize=rules.foodsize; out.type=rules.kindofdrink;};

Regel Repräsentation

{
   drink: {
      liquid:"beer",
      drinksize:"medium"}
}
vs.
{
   drink: {
      liquid:"sake",
      drinksize:"medium"}
}

Speech: PLS 1.0 und SSML (1.0. oder 1.1)

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="de-DE">
 <lexicon uri="http://www.corpusdata.example.com/corpus_de_lexicon.pls"/>
Ich bringe Ihnen Ihre Getränke.</speak>

EMMA Beispiel

Wähle ein Getränk mit einem elektronischem Stift:

<emma:emma version="1.0"
    xmlns:emma="http://www.w3.org/2003/04/emma"
    xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
    xsi:schemaLocation="http://www.w3.org/2003/04/emma
     http://www.w3.org/TR/2007/WD-emma-20070409/emma.xsd"
    xmlns="http://www.example.com/example">
  <emma:interpretation id="voice1"
      emma:medium=äcoustic"
      emma:mode="voice">
    <command>
      <action>zoom</action>
      <location emma:hook="ink">
         <type>area</type>
      </location>
    </command>
  </emma:interpretation>
</emma:emma>

Übersicht

Verbindung von Ressourcen

RDDL

RDDL Beispiel

W3C Namespace Dokumente, z.B. für ITS 1.0:

<p>This document describes the namespace of the
<rddl:resource
    id="Core_Spec" xlink:title="Internationalization Tag Set (ITS) Version 1.0"
  xlink:role="http://www.isi.edu/in-notes/iana/assignments/media-types/text/html"
xlink:arcrole="http://www.rddl.org/purposes#normative-reference"
xlink:href="http://www.w3.org/TR/2007/REC-its-20070404/"
xlink:type="simple" xlink:show="none" xlink:actuate="none">
<a href="http://www.w3.org/TR/2007/REC-its-20070404/">
Internationalization Tag Set (ITS) Version 1.0</a></rddl:resource>
specification (November 2006 version).[...]</p>

GRDDL

GRDDL Anwendungsbeispiel

Übersicht

Metadaten über Ressourcen / semantische Annotationen

<xs:element name="s"
 sawsdl:modelReference="http://www.corpusdata.example.com/ontology/textualcorpus#s">
[...]
</xs:element>

Zukünftige Entwicklungen zu Metadaten / semantischen Annotationen

WARNUNG! Keine Working Groups, aber Incubator

Übersicht

Perspektiven und Prognosen

Perspektiven und Prognosen