Logo w3c.de/at

Das Semantische Web hebt ab

von Tim Berners-Lee und Eric Miller

Übersetzung: Henning Fischer und Klaus Birkenbihl

Das Semantische Web ist eine Erweiterung des gegenwärtigen Webs, in dem Information eine wohldefinierte Bedeutung hat, so dass Computer und Menschen besser zusammenarbeiten können. Die W3C Semantic Web Activity – in Kooperation mit einer großen Zahl von Wissenschaftlern und Industriepartnern - soll Standards und Technologien zu erarbeiten, um Daten im Web in einer Weise zu definieren und miteinander zu verknüpfen, dass sie für effektivere Such-, Automatisierungs- und Integrationsprozesse genutzt und über mehrere Anwendungen hinweg wieder verwendet werden können. Das Web wird alle seine Möglichkeiten erschließen, wenn es zu einer Umgebung wird, in der Daten sowohl von automatischen Werkzeugen als auch von Menschen genutzt und bearbeitet werden.

Wozu kann man das brauchen? Stellen Sie sich vor, Sie wollen den Preis und die Auswahl von Blumenzwiebeln vergleichen, die am besten in Ihrer Region wachsen, oder Sie suchen in online Katalogen von verschiedenen Herstellern vergleichbare Ersatzteile für einen Volvo 740. Die pure Information, nach der Sie suchen, ist sicherlich im Web vorhanden, nur nicht in maschinenverständlicher Form. Man benötigt immer einen Menschen, der die Informationen wahrnimmt und auf ihre Relevanz hin untersucht.

Das Semantische Web geht dieses Problem auf zwei Wegen an. Einerseits können Gruppen, ihre Daten zu so bereitstellen, dass ein Programm nicht die Formatierung, die Bilder oder die Werbung von einer Webseite entfernen muss, um die relevanten Teile einer Information zu erraten. Andererseits kann man Dateien schreiben oder generieren, die - einer Maschine - die Beziehung zwischen verschiedenen Datenbeständen erklärt. Man kann z.B. mittels eines „semantischen Links“ zwischen einer Datenbank mit einer Spalte von Postleitzahlen und einem „PLZ-Feld“ in einem Online-Formular auszudrücken, dass sie dasselbe beschreiben. Dies wird dazu führen, dass Maschinen diesen Links folgen können und es erleichtert die Integration von Daten aus vielen verschiedenen Quellen.

Das Konzept, verschiedene Ressourcen (Dokumente, Bilder, Menschen, Konzepte etc.) semantisch zu verknüpfen, ist sehr wichtig. Nur so können wir beginnen, von dem gegenwärtigen Web mit einfachen Hyperlinks auf ein ausdrucksvolleres, semantisch reichhaltigeres Web umzusteigen, auf ein Web, dem wir schrittweise Bedeutung hinzufügen und einen vollständig neuen Satz von Beziehungen (istDort, abeitetFür, istAutorVon, hatZumThema, istAbhängigVon etc.) zwischen Ressourcen, deren einzelne kontextuellen Bezüge bereits im gegenwärtigen Web angelegt sind. So werden neue Türen für eine effizientere Informationsintegration bzw. Informationsverwaltung und für neue automatische Dienstleistungen geöffnet.

Wie wird es entwickelt?

Die Fortschritte bei der Entwicklung des Semantischen Webs lässt sich aus zwei Perspektiven betrachten: Von unten, wo die infrastrukturelle und architektonische Arbeit von W3C koordiniert wird und von oben wo in anwendungsspezifischer Arbeit unterschiedliche Semantic-Web-Technologien in Demonstrationen, Anwendungen und Produkten weiterentwickelt werden. Dieser Artikel betrachtet beide Richtungen, allerdings mit einem Schwerpunkt in den Bereichen, in denen das W3C direkt involviert ist.

Standards ermöglichen

Uniform Resource Identifies (URI) sind grundlegende Bestandteile des gegenwärtigen Webs und bilden die Basis für das Semantische Web. Die Extensible Markup Language (XML) ist ebenfalls eine grundlegende Komponente. XML ist das interoperable syntaktische Fundament, auf dem das wichtigere Anliegen, Beziehungen und Bedeutungen darzustellen, aufbauen kann. URIs bieten sowohl die Möglichkeit der eindeutigen Identifizierung sowohl von Ressourcen als auch ihrer Beziehungen untereinander. Die Resource Description Framework (RDF) Standard-Familie veredelt URIs und XML, damit sie schrittweise Funktionen bereitstellen, die Beziehungen und Bedeutungen auszudrücken.

Der Arbeitsplan der W3C Semantic Web Activity weißt W3C eine Führungsrolle beim Entwerfen von Spezifikationen und bei der offenen, gemeinschaftlichen Entwicklung von Technologien, die ihren Schwerpunkt in der Darstellung von Beziehungen und Bedeutungen haben, zu. Die RDF-Standard-Familie ist bereits eine W3C Recommendation. Die RDF Core Working Group arbeitet an der Formalisierung der ursprünglichen RDF Model and Syntax Recommendation, die einen einfachen aber dennoch leistungsfähigen Rahmen für die Darstellung von Informationen im Web zur Verfügung stellt. Hierauf aufbauend definiert die Arbeitsgruppe einfache Wege, um RDF-Vokabulare zu deklarieren. RDF-Vokabulare sind beschreibende Begriffe (z.B. Dienstleistung, Buch, Bild, Titel, Beschreibung etc.), die für eine Gruppe von Leuten hilfreich sind, um Informationen in der Art und Weise zu beschreiben, dass sie effektiv wieder verwendet, integriert, oder gesammelt werden können. Zusätzlich soll die Arbeitsgruppe eine exakte semantische Theorie dieser Standards sowie eine Einführung veröffentlichen, die dem Leser die Grundlagen von RDF und seinen Anwendungen erklärt.

Einfache Datenintegration, Datensammlung sowie Interoperabilität werden durch diese grundlegenden RDF Standards ermöglicht. Daneben besteht eine gesteigerte Notwendigkeit, Interoperabilität auf einem ausdrucksvolleren, beschreibenden Niveau zu erreichen. Die Web Ontology Working Group ist gegründet worden, um – auf den RDF Core Arbeiten aufbauend – eine Sprache für die Definition von strukturierten, web-basierten Ontologien zu entwickeln. Ontologien können von automatisierten Werkzeugen für erweitere Dienstleistungen, wie genauere Suchmaschinen, intelligentere Software-Agenten und Wissensmanagement verwendet werden. Webportale, gemeinsames Webseitenmanagement, intelligente Agenten und überall verfügbarer Netzzugang sind einige der Szenarien, die dazu beigetragen haben, die Anforderungen für diese Arbeit zu skizzieren.

Fortgeschrittene Entwicklung

Gerade weil die frühere Entwicklung des Webs von Codemodulen wie libwww abhing, investiert W3C auch jetzt in die Erstellung und Verbreitung ähnlicher Kernkomponenten für die Basis des Semantischen Webs. W3C gründete die Semantic Web Advanced Development (SWAD) Initiative, um mit eine großen Zahl von Wissenschaftlern, Industriepartnern und Entwicklern zu kooperieren und in ergänzenden Bereichen Arbeiten anzuregen, die helfen die Verbreitung und die Arbeit an zukünftigen Standards für das Semantische Webs zu erleichtern.

SWAD DAML

Der Zweck des SWAD DAML Projekts ist es, zur Entwicklung eines pulsierenden, überall verfügbaren Webs beizutragen, indem eine kritische Infrastruktur aufgebaut und demonstriert wird, wie eine solche von funktionierenden benutzerorientierten Anwendungen genutzt werden kann.

SWAD DAML ist entworfen worden, um – aufbauend auf der DARPA Agent Markup Language (DAML) Infrastruktur – den Austausch zwischen zwei oder mehreren unterschiedlichen Anwendungen zu ermöglichen. Eine ist die Manipulation strukturierter Informationen, die benötigt werden, um die fortwährenden Aktivitäten einer Organisation wie dem W3C aufrecht zu erhalten. Dies beinhaltet Zugangskontrolle, gemeinsame Entwicklung und Terminverwaltung. Die zweite Anwendung ist schwerpunktmäßig auf die formlosen und häufig heuristischen Prozesse bei der Dokumentenverwaltung in einer personalisierten Informationsumgebung gerichtet. Werkzeuge, die in beiden Umgebungen eingebettet sind, erlauben es dem Autor, die Bedingungen zu kontrollieren, unter denen persönliche oder sensitive Informationen von anderen genutzt werden können. Dies ist eine notwendige Eigenschaft, zum Teilen semantische Inhalte mit anderen ermutigt werden soll.

SWAD-Europe

SWAD-Europe beleuchtet praktische Beispiele dafür, dass durch den Einsatz von Technologien des Semantischen Webs handfeste Werte im gegenwärtigen Web entstehen. Der Schwerpunkt dieser Initiative liegt darin, praktische Demonstrationen zu zeigen, wie das Semantische Web Probleme in Bereichen wie: Inhaltsverzeichnisse von Webseiten, Verbindungen von Nachrichtenkanälen, Thesauri, Klassifikationen, Topic-Maps, Kalenderfunktionalität, Terminplänen, Zusammenarbeit, Kommentierung, Qualitätsbewertung, gemeinsam genutzte Bookmarks, Dublin Core für einfache Ressourcen Entdeckung, Web Service Beschreibung und Entdeckung, Vertrauen und Rechteverwaltung lösen kann und wie effektiv und effizient diese Technologien zusammenspielen.

SWAD-Europe konzentriert sich zusätzlich auf explorative Implementierungen und das Design in Bereichen wie Abfragen und der Integration mehrerer Semantic Web Technologien miteinander im Vorfeld einer Konsensbildung (im W3C. Anm. des Übersetzers). Dies liefert wertvollen Input und Erfahrung für die zukünftige Standardisierungsarbeit.

SWAD Simile

W3C arbeitet zusätzlich mit HP, der Bibliothek des MIT und mit dem Lab for Computer Science des MIT zusammen an Simile, das anstrebt die Interoperabilität zwischen digitalen Gütern, Schemata, Metadaten und Dienstleistungen über verteilte individuelle, gemeinschaftliche und institutionelle Speicher und über Wertschöpfungsketten, die nützliche Benutzerdienste durch Zugriff auf die Werte, Schemata und Metadaten in diesen Speichern bieten, zu erhöhen. Simile wird DSpace anheben und erweitern, indem es die Unterstützung beliebiger Schemata und Metadaten verbessert; primär durch eine Anwendung von RDF und Technologien des Semantischen Webs. Das Projekt zielt ferner auf eine Implementierung einer Architektur für die Verteilung digitaler Güter, die auf Webstandards basiert und es Dienstleistungen ermöglicht, mit relevanten Gütern, Schemata und Metadaten in verteilten Speichern zu operieren.

Die Simile Arbeiten werden sich auf bekannte und reale Anwendungsfälle im Bereich von Bibliotheken fokussieren. Da parallel daran gearbeitet wird, DSpace bei einer Anzahl von führenden Forschungs-Bibliotheken einzusetzen, hoffen wir, dass ein solcher Ansatz zu einem kräftigen Vertriebskanal führt und dass so der Nutzen und die Ausgereiftheit von Werkzeugen und Technologien des Semantischen Webs in einer sichtbaren und globalen Gemeinschaft unmissverständlich demonstriert werden kann.

SWAD Oxygen

Das MIT/LCS Oxygen Projekt ist entwickelt worden, um umfassendes, menschbezogenes Arbeiten durch eine Kombination des spezifischer Nutzer- und Systemtechnologien zu ermöglichen. Oxygen’s Benutzertechnologien orientieren sich an menschlichen Bedürfnissen. Spezielle Audio- und Videotechnologien ermöglichen es uns mit Oxygen genauso wie mit Personen zu kommunizieren, was eine Menge Zeit und Anstrengung spart. Automatisierung, individualisierter Zugang zu Wissen und Technologien für gemeinschaftliches Arbeiten helfen uns, eine Vielzahl von Aufgaben in der Weise durchzuführen, wie wir sie tun möchten. Innerhalb Oxygen ermöglichen diese Technologien die spontane Bildung von Kooperationsbereichen, die Unterstützung für die Aufzeichnung und Archivierung bieten und in der Lage sind Fragmente von Aufnahmen in Besprechungen zu Themen, Zusammenfassungen, Schlagwörtern und Kommentaren zu verbinden.

Das Semantische Web wurde entworfen um ähnliche Umgebungen für Zusammenarbeit zu befördern und das W3C arbeitet mit dem Oxygen Projekt, um dieses Ziel zu unterstützen. Die Möglichkeit für „jeden, alles zu allem zu sagen“ ist ein wesentliches Merkmal des gegenwärtigen Webs und gehört zu den fundamentalen Prinzipien des Semantischen Webs. Zu wissen wer eine bestimmte Anmerkung getätigt hat, wird zunehmend wichtig, um diese Beschreibung einschätzen zu können. So wird ein „Web des Vertrauens“ (Web of Trust) geschaffen. Das Annotea advanced development project stellt die Basis für die Zuordnung von beschreibenden Informationen, Kommentaren, Notizen, Kritiken, Erklärungen und anderen Typen von auswärtigen Anmerkungen zu jedweder Ressource zur Verfügung. Zusammen mit digitalen XML Signaturen wird das Annotea Projekt eine Testumgebung für „Web-of-Trust“ Anwendungen des Semantischen Webs.

Anwendungen – weiter gesponnen

Obwohl sie nicht im Mittelpunkt dieses Artikels stehen, ist der Einsatz von RDF-basierter Technologie von wachsender Bedeutung. Die W3C Semantic Web Activity beheimatet auch die RDF Interest Group, die die öffentlichen Implementierungen koordiniert und Einsatzerfahrungen dieser Technologien mit anderen teilt. Aus Diskussionen innerhalb der RDF Interest Group sind zahlreiche öffentliche themenspezifische Mailinglisten hervorgegangen, z.B. zu RDF-basierten Kalender- und Gruppenarbeitsplansystemen, zu logikbasierten Sprachen, zu Datenbankabfragen, zu Regeln für RDF Daten, zu verteilten Kommentierungen und zu Systemen für gemeinsames Arbeiten. Diese Diskussionsgruppen sind dazu da, um den Fokus auf ergänzende Interessensgebiete im Zusammenhang mit der Semantic Web Activity zu lenken, wobei jede einzelne die Mitarbeit und Zusammenarbeit von Einzelpersonen und Organisationen fördert, die an verwandten Technologien des Semantischen Webs arbeiten.

Zusätzlich zu diesen Mailinglisten von Interessensgruppen gibt es eine Vielzahl von themenspezifischen Gruppen, die RDF/XML benutzen, um ihre Daten im Web zu veröffentlichen. Das sind vornehmlich die Dublin Core Metadata Initiative, das IMS Global Learning Consortium, XMLnews, PRISM, die RDF Site Summary (RSS 1.0) für die Unterstützung von Nachrichtentickern, Musicbrainz für die Katalogisierung und Cross-Referenzierung von Musik und Creative Commons für die Unterstützung der Beschreibung von digitalen Rechten, um nur ein paar zu nennen. Die Topic Map (XTM) Gemeinde gewinnt zunehmend Synergie aus dem RDF Datenmodell.

Frühe kommerzielle Anwendungen wie z.B. Adobe’s eXtensible Metadata Platform (XMP), versetzen RDF/XML in die Lage eine effektivere Verwaltung digitaler Ressourcen zu ermöglichen. Adobes Anwendungs- und Workflowmanager können durch XMP RDF/XML dazu bringen, einen standardisierten Bedeutungszusammenhang für die Erstellung, Verarbeitung und für den Austausch von Dokumenten-Metadaten im Rahmen von Arbeitsprozessen im Publishingbereich zu liefern. Dies reduziert Kosten und führt zu einer effektiveren Verwaltung von digitalen Ressourcen sowohl innerhalb eines Unternehmens als auch im Austausch mit Partnern.

Es eröffnen sich neue Wege

Das Interessanteste am Semantischen Web sind nicht die Dinge, die wir uns vorstellen können damit zu tun, sondern die Dinge, die wir uns noch nicht vorstellen können. So wie globale Indexe und Google’s Suchalgorithmen in den frühen Tagen des Webs noch nicht vorstellbar waren, so können wir uns jetzt noch nicht all die neuen Forschungsherausforderungen und Bereiche aufregender Produkte vorstellen, die entstehen werden, wenn es ein Web der Daten gibt. Viele existierende Ansätze für die Wissensrepräsentation und Datenverwaltung gehen von der Annahme eines entweder konzeptionell oder aber physikalisch zentralisiertem Systems aus und können somit nicht direkt auf den Semantischen Web angewendet werden. Gegeben eine Masse von Regeln die Daten in verschiedenen Vokabularien in Beziehung setzen und unbegrenzte Menge von Dateien in verschiedenen Vokabularien: welcher Algorithmus wird effektiv allgemeine Anfragen auflösen können? Welche Konvention für die Speicherung von Hinweisen und Zeigern wird die Wiederverwendung und automatische Konvertierung von Daten erlauben? Welche Technik wird es einem System ermöglichen, sicher zu operieren, während es völlig verschiedene Daten von nichtvertrauenswürdigen Agenten verarbeitet? Wie kann man in so einer Welt seine Datenschutz repräsentieren und dann implementieren?

Das Semantische Web beginnt als einfaches Diagramm mit Kreisen und Pfeilen, die Bezüge zwischen Dingen ausdrücken. Dieses Diagramm erweitert sich langsam und verknüpft sich und wird global und riesig. Das Web der für Menschen lesbaren Dokumente brachte eine soziale Revolution hervor. Das Semantische Web erreicht vielleicht das gleiche in der Welt der Computer. In keinem Fall wird die Leistung eines Menschen oder eines Computers verändert, vielmehr wird es einen dramatischen Wechsel in der Rolle geben, die beide in der Welt spielen, indem man in der Lage ist, nahezu alles praktisch sofort zu finden.

Für weitere Informationen über das Semantische Web, zusätzliche Projekte, Produkte, Bemühungen und zukünftige Richtungen besuchen Sie dieSemantic Web Home Page.


Klaus Birkenbihl, W3C - Deutsch-Österreichisches Büro (klaus@w3.org)
Last revised: $Date: 2003/04/07 12:13:53 $

Copyright © 1999-2003 W3C® (MIT, ERCIM, Keio), All Rights Reserved.