Schon seit einigen Jahren fördert das W3C – insbesondere Tim Berners-Lee – die Idee des Semantic Web. Dabei stehen vor allem zwei Ziele im Vordergrund, die eng miteinander zusammenhängen: Zum einen ein verbesserter Austausch von Daten zwischen Anwendungen und zum anderen eine verbesserte maschinelle Auswertung von Daten.
Hintergrund
Das
Internet
ist öffentlicher Datenspeicher, Informationsquelle und
Arbeitsplatz für Millionen von Menschen. Computer und Programme verwalten
unzählige
Datenbanken,
Internetseiten
und Kommunikationsplattformen. Diese Dienste basieren
in aller Regel auf grundlegenden technischen Operationen, wie das
Ausliefern von
Dokumenten oder auch Fehlermeldungen sowie die Bereitstellung von
Anwendungen für die Eingabe von Webinhalten. Programme können zwar auf
die im Netz verfügbaren Daten zugreifen, aber es gibt nur begrenzte
Möglichkeiten die verfügbaren Inhalte mit einem Mehrwert für die Benutzer
auszuwerten. |
|
Beispiel
Vorteile des Semantic Web lassen sich am besten anhand von Suchanfragen
demonstrieren. Als ein typisches Beispiel werden hier die Schwierigkeiten
einer Literaturwissenschaftlerin auf der Suche nach einem elektronisch
vorhandenen Text skizziert:
Es gibt eine Übersetzung von Shakespeares Hamlet, die von Maik Hamburger
stammt. Zwar wird die Fassung gerne an deutschen Schauspielhäusern gespielt,
sie ist aber von keinem Verlag öffentlich publiziert. Die
Literaturwissenschaftlerin versucht also, den Text im Internet zu finden und
gibt bei einer
Suchmaschine
die Stichworte „Hamlet“ und „Hamburger“ ein. Nun ist es so,
dass es in den USA eine Restaurantkette gibt, die „Hamburger Hamlet“ heißt
(weil Hamlet im Englischen auch eine kleine Ortschaft bezeichnet). Überdies
gibt es viele Aufführungen des Stücks Hamlet in der Stadt Hamburg, so dass
Informationen über die Hamburgersche Übersetzung entweder gar nicht oder nur
extrem schwer aufzufinden sind.
Gäbe es für die Wissenschaftlerin eine Möglichkeit, der Suchmaschine
begreiflich zu machen, dass sie auf der Suche nach einem Buch mit dem Titel
„Hamlet“ ist, das von einer Person namens „Hamburger“ verfasst bzw.
übersetzt wurde, könnten die Restaurant-Kette und Berichte über
Inszenierungen in Hamburg aus den Suchergebnissen ausgeschlossen
werden.
Was wäre dafür nötig? Die Suchmaschine müsste „wissen“, dass ein Buch einen
Titel und einen Autor hat und dass dieser Autor wiederum einen Namen trägt.
Solche Informationen können Suchmaschinen derzeit aber nicht erfassen.
Ziele
Das Kürzel WYMIWYG steht für „What You Mean Is What You Get“ und lehnt sich
an das aus der Textverarbeitung bekannte Kürzel
WYSIWYG. Es steht für das zentrale Ergebnis aller
Semantic-Web-Bemühungen. Der Nutzer soll bei Web-Recherchen das Ergebnis
bekommen, das er tatsächlich gemeint hat, ohne durch zufällige technische
Unzulänglichkeiten beeinflusst zu werden. Zudem ermöglicht die Modellierung
von inhaltlichen Bezügen auch eine automatische Erstellung von Verweisen (
Hyperlinks).
Ansätze
Die Idee hinter dem Semantic Web, die Bedeutung von Daten maschinenlesbar
aufzubereiten, um verbesserte Suchergebnisse, Hilfestellungen und
Informationen bei der Arbeit mit Daten zu erhalten, geht bis in die 60er
Jahre zurück und ist seither ein zentrales Feld im Bereich der
Künstliche-Intelligenz-Forschung. Je nach Zielsetzung sind diese Ansätze in
unterschiedliche Richtungen weiter entwickelt worden. Entsprechend stehen
inzwischen unterschiedliche Werkzeuge zur Verfügung, die im Kontext des
Semantic Web Bedeutung erlangen könnten.
Taxonomien
Taxonomien sind ein einfaches Werkzeug zur Strukturierung und inhaltlichen
Auszeichnung von Daten. Sie werden seit langem im Bibliothekswesen und im
Bereich von Lexika verwendet. Eine Taxonomie besteht aus einer Hierarchie
von Schlagwörtern. Dabei bilden die Schlagwörter, die sich in der Hierarchie
weiter oben befinden, die Oberbegriffe für die darunter eingeordneten
Schlagwörter. Die eigentlichen Ressourcen werden immer mit dem präzisesten
Schlagwort ausgezeichnet, weil die übergeordneten Schlagwörter aus der
Hierarchie gefolgert werden können.
Taxonomien sind aus pragmatischen Gründe eine gute Wahl zur Verbesserung des
Informationsangebotes, weil Benutzer mit Hierarchien bereits aus der
Navigation mit
Sitemaps
vertraut sind und sie einen effektiven Weg bieten, Inhalte
weitergehend zu strukturieren.
Ein großer Nachteil von Taxonomien ergibt sich dort, wo Ressourcen mehrere
Elemente verbinden und nicht mehr eindeutig in einen Zweig des
Kategoriensystems einzuordnen sind. Zudem ist es notwendig, die Taxonomie zu
entwickeln und zu pflegen, was in einem dynamischen Wissensgebiet unter
Umständen sehr aufwändig sein kann.
Wortnetze
Da es einige Wissensbereiche gibt, die sich nicht mit einfachen Taxonomien
abbilden lassen, wurde bereits früh mit der Entwicklung von Netzen begonnen,
die die Bedeutung von Schlagwörtern korrekt abbilden können. Sehr
erfolgreich in einzelnen Anwendungen und entsprechend weit verbreitet sind
Wortnetze nach dem Modell des
Princeton Wordnet. Dabei werden
synonyme Begriffe in so genannte Synsets zusammengefasst und mit
semantischen Relationen untereinander verbunden.
So bilden beispielsweise die Begriffe „Auto“, „Automobil“, „Wagen“ und „PKW“
ein gemeinsames Synset. Ein weiteres Synset könnte aus „Fahrzeug“ und
„Verkehrsmittel“ bestehen. Zwischen dem ersten und dem zweiten Synset
besteht dann die Beziehung Unterbegriff-Oberbegriff
(Hyponomie-Hyperonomie).
Wordnet bildet ein gutes Dutzend Relationen ab, die beschreiben, wie
Begriffe und Konzepte zusammenhängen. Darunter fällt zum Beispiel die
„Teil-Ganzes-Relation“, die es ermöglicht zu beschreiben, dass ein Kolben
Teil eines Motors ist. Anhand dieser Relationen können komplexe
Suchanfragen besser bearbeitet werden. Möchte jemand wissen wie ein Motor
funktioniert, kann eine Liste aller Objekte generiert werden, die Teile
eines Motors sind.
Weitere Informationen zu Wortnetzen bieten die
Webseiten des Tübinger Projekts GermaNet.
Objektorientierung
Objektorientierung wurde ursprünglich als Programmierparadigma entwickelt,
für das unter anderem die Programmiersprache
Java
bekannt ist. Die Objektorientierung kennt dabei Klassen, die
wiederum Eigenschaften und Methoden haben. So kann es z. B. eine Klasse
„Auto“ geben, die die Eigenschaften „Hersteller“, „Höchstgeschwindigkeit“,
„Sitzplätze“ und „Benzinverbrauch“ hat. Zusätzlich kann diese Klasse
Methoden beinhalten, die beschreiben, was man mit einem Auto alles machen
kann, wie bspw. Auftanken, Fahren, Reparieren.
Eine Klasse ist also eine abstrakte Beschreibung von Dingen. Von dieser
abstrakten Beschreibung lassen sich konkrete Instanzen bilden, die die
Eigenschaften und Methoden der Klasse übernehmen. Eine solche Instanz einer
Klasse wird Objekt genannt. So könnte es eine Instanz der Klasse Auto geben
die »Aston Martin« heißt und dessen Eigenschaft „Sitzplätze“ den Wert „zwei“
hat.
Überdies kennt die Objektorientierung das Konzept der Vererbung. Dabei kann
eine Klasse von einer anderen Oberklasse abgeleitet werden. Abgeleitete
Klassen erben die Attribute und Methoden ihrer jeweiligen Oberklasse. Damit
die abgeleitete Klasse keine reine Kopie ihrer Oberklasse ist, gibt es die
Möglichkeit in den Unterklassen Attribute und Methoden zu ergänzen. So
könnte die Klasse „LKW“ als zusätzliches Attribut „Ladefläche“ haben und als
zusätzliche Methoden „Beladen“ und „Entladen“ vorsehen.
Beschreibungslogik
Logik-Formalismen wie die Aussagenlogik oder Prädikatenlogik erlauben das
automatische Folgern von Aussagen. Dabei gilt es zunächst Regeln zu
formulieren, wie z. B. „wenn A dann B, wenn B dann C“. Die Regeln werden um
Zustandsbeschreibungen ergänzt wie etwa: „es gilt A“. Daraus ergibt sich
dann automatisch C.
Dieses Beispiel stammt aus der Aussagenlogik. Umfassendere Formalismen wie
die Prädikatenlogik steigern die Komplexität der formulierbaren Regeln und
erlauben damit vielschichtigere Anfragen. Die Abbildung von logischen
Zusammenhängen ermöglicht, auf unerwartete Fragen der Benutzer mit implizit
gefolgerten Antworten zu reagieren.
Standards
Die bisher vorgestellten Konzepte zum Semantic Web haben gemeinsam, dass sie
Wissen über inhaltliche Zusammenhänge in Form von Schlagwörtern
repräsentieren, die durch bestimmte Formalismen verknüpft sind. Das Semantic
Web tritt aber nicht zuletzt an, um eine weitere Ausbaustufe des Internets
zu werden. Das Internet setzt sich allerdings nicht aus Schlagwortnetzen
zusammen, sondern aus einer überwältigenden Menge von Webseiten, Texten,
Bildern, Videos, Dokumenten - kurz Ressourcen, die jeweils über eine
eindeutige Adresse, die
URL
auffindbar sind. Eine bessere Ordnung in dieses Ressourcenuniversum
zu bringen ist eine zentrale Hoffnung, die mit Semantic-Web-Technologien
verbunden ist.
Es stellt sich also die Frage, wie sich die geordneten Schlagwortnetze und
die chaotischen Ressourcen des
WWW
zusammenbringen lassen. Ursprünglich sind zwei Standards angetreten,
um die Ziele des Semantic Web zu verwirklichen. Auf der einen Seite steht
das
W3C
mit seiner aufeinander aufbauenden Standard-Troika
RDF,
RDF-S
und
OWL. Auf der anderen Seite steht das Topicmap-Konsortium mit einem
ISO-Standard, der ursprünglich aus dem Verlags- und Bibliothekswesen stammt
und weit einfacher und intuitiver, dafür aber weniger aussagekräftig
ist.
- Das Rescource Description Framework (RDF) umfasst ein so genanntes
Tripel aus Subjekt, Prädikat und Objekt, das es ermöglicht, neben
Attribut-Wert-Paaren auch Beziehungen zwischen Ressourcen
darzustellen.
- RDF-Schema (RDF-S) ist ein
XML
-Standard, mit dem für eine Klasse von ähnlichen Ressourcen wie z.
B.
Webseiten
festgelegt werden kann, wie die Zuordnung von Eigenschaften
erfolgen soll und welche grundlegenden Beziehungen zu anderen Eigenschaften
bestehen. Ein Beispiel ist das Metadaten-Schema
Dublin Core.
- Die Web Ontology Language (OWL) ist nach dem Prinzip der
Objektorientierung aufgebaut und bietet sowohl die Möglichkeit, Attribute
zu gestalten als auch Vererbung von Klassen abzubilden.
Anwendungen
Inzwischen gibt es eine ganze Reihe von Anwendungen zur Erstellung von
Wissensbasen. Die meisten dieser Anwendungen erstellen Daten, die zu den
Standards des W3C für semantische Auszeichnungen konform sind.
- Altova, ein Softwareunternehmen, dass sich auf XML-Editoren
spezialisiert hat, bietet seit einiger Zeit die
SemanticWorks
an. Als graphischer
Editor soll es die professionelle Erstellung von W3C-konformen Ontologien
ermöglichen.
- Eine
Open-Source
-Alternative zu SemanticWorks ist der
Protege Editor, der in Stanford und ebenso wie
SemanticWorks mit Hilfe von Java entwickelt wird. Der Protege soll
ebenfalls die Erstellung von Ontologien durch qualifiziertes Personal
ermöglichen.
Probleme und Ausblick
Obwohl das Semantic Web bereits seit vielen Jahren propagiert wird, ist
bisher nur in einzelnen Vorzeige-Projekten eine Realisierung zu erkennen.
Die vorgestellten Semantic-Web-Standards sind zwar technisch gesehen
Standards, aber noch weit davon entfernt, durch verbreiteten Gebrauch
faktisch akzeptierte Standards darzustellen. In der Praxis ergeben sich
erhebliche Probleme. Sie reichen von der Frage, wie detailliert man
semantische Relationen modellieren soll, will oder kann, bis hin zur
politischen Überlegung, ob es Autoritäten geben soll, die zentral
Bedeutungen festlegen.
Zunächst bedeutet die zusätzliche Anreicherung von Daten mit
maschinenlesbaren Informationen auch zusätzliche Arbeit. Redakteure müssen
neben der Erstellung des Artikels auch noch für die korrekte
Verschlagwortung sorgen.
Des Weiteren spiegeln sich in der Auszeichnung mit Meta-Informationen auch
Interessen wieder. So bot die Auszeichnungssprache
HTML
bereits in sehr frühen Versionen ein Element an, das
Meta-Informationen über das jeweilige Dokument enthalten sollte. Es zeigte
sich allerdings, dass Webseiten-Anbieter die Informationen im Meta-Tag
verwendeten, um ihre Positionierung in den Suchmaschinen zu verbessern,
unbeachtet, ob die Metainformationen inhaltlich richtig waren oder nicht.
Daher gingen die großen Suchmaschinen dazu über, die Metainformationen zu
ignorieren. Prinzipiell steht das Semantic Web vor demselben Problem – ohne
eine Lösung dafür zu haben.
Die Konzepte des Semantic Web sind hochkomplexe Formalismen. Das bleiben sie
selbst dann, wenn es gelänge, eine intuitive Anwendung zu entwickeln. In
erster Linie bleibt der Aufbau semantischer Netze damit Experten
vorbehalten. Stärker noch als Enzyklopädien definieren semantische Netze,
was die Welt ist, was wahr ist und was falsch. Damit kommt einer sehr
kleinen Gruppe von Menschen eine ausgesprochen große Definitionsmacht
zu.
Eine alternative Herangehensweise stellen Social-Tagging-Systeme dar, die
genutzt werden können, um aus einer großen Menge von individuell vergebenen
Schlagwörtern dezentrale Ontologien (
Folksonomies) aufzubauen. Daraus ergibt sich allerdings das umgekehrte
Problem: Was einen Tag ausmacht wird über den Mittelwert der Masse aller,
die Objekte mit diesem Tag versehen haben, definiert. Doch gibt es reichlich
Beispiele für populäre Irrtümer.
Die Popularität von
Tagging
in diversen
Web 2.0
-Anwendungen
macht dennoch Hoffnung, dass zwei Grundannahmen des Semantic Web richtig
sind: Zum einen geben sich viele Nutzer Mühe, Daten mit semantisch korrekten
Metadaten anzureichern. Zum anderen scheinen sich Tags als sinnvolle und
verständliche Suchmöglichkeit neben der Volltextsuche etabliert zu
haben.