Semantisches Web und semantische Suchmaschinen

7 Jun

semantic-web

Im Zuge des Starts von WolframAlpha, Bing und Google Squared ist die Diskussion um semantische Suchmaschinen wieder verstärkt in den Vordergrund gerückt. In diesem Artikel soll daher das Potenzial semantischer Suchmaschinen genauer hinterfragt werden, wobei auf die folgenden Punkte eingegangen wird:

  • Vision und Grundlagen des semantischen Webs
  • Technische Grundlagen des semantischen Webs
  • Probleme und Herausforderungen im Bereich der semanischen Suche

Die Ausführungen entstammen einem Beitrag, der ich in Zusammenarbeit mit Dr. Gotthard Pietsch in ähnlicher Form in dem von Prof. Dr. Keuper herausgegebenen Band “Information und Wissensmanagement” bereits 2008 veröffentlicht habe.

Vision und Grundlagen des semantischen Webs

Mit dem semantischen Web wird die Vision einer um semantische Informationen angereicherten Version des World Wide Web verfolgt, um den Automatisierungsgrad bei der Verarbeitung von Wissen und damit auch die Informationsqualität im Zuge von Suchanfragen zu erhöhen: „The Semantic Web is not a separate Web but an extension of the current one, in which information is given well-defined meaning, better enabling computers and people to work in cooperation“ [Berners-Lee et al. 2001]. Mit semantischen Informationen sind hier Metadaten gemeint, die die eigentlichen Inhalte in einem maschinenlesbaren Format beschreiben. Auf dieser Grundlage ist es denkbar natürlichsprachige Fragen an das Web zu stellen und entsprechende Antworten zu erhalten [John 2006, S. 5]. Im Gegensatz zu algorithmenbasierten Suchmaschinen würden Suchanfragen somit nicht anhand der Zeichenketten der Suchwörter oder struktureller Kriterien wie der Linkstruktur beurteilt. Vielmehr sollen semantische Suchmaschinen die Bedeutungsinhalte der indizierten Webseiten analysieren und mit diesen Informationen sehr viel genauer die relevanten Seiten für eine spezifische Suchanfrage in der Ergebnisliste präsentieren. Erste Ansätze in diese Richtung geht z. B. die Suchmaschine Powerset, wo der Anwender bereits heute – bislang nur in englischer Sprache – Suchanfragen wie „When was George Washington born?“ stellen kann und eine exakte Antwort erhält (vgl. Abb. 1).

Abb. 1: Semantische Ansätze bei Powerset

Vor diesem Hintergrund stellt sich die Frage, auf welchem Wege Mensch und Computer ein gemeinsames Verständnis über ein bestimmtes Themengebiet und dessen Informationsinhalte aufbauen können. An dieser Stelle setzt die Diskussion um Ontologien an. Mit ihrer Entwicklung wird der Anspruch erhoben, ein gemeinsames Vokabular über einen bestimmten Ausschnitt der Realität zu bilden. Entsprechend führt Gruber aus: „An ontology is an explicit specification of a shared conceptualization“ [Gruber 1995].

Um ein Verständnis für Ontologien zu entwickeln, ist es hilfreich, zunächst auf andere Formen der Wissensrepräsentation, wie z. B. Taxonomien und Thesauren einzugehen. Bei erstgenannten handelt es sich um kontrollierte Vokabulare mit hierarchischen Beziehungen untereinander. Im Beispiel in Abbildung 1 ist die betrachtete Person zugleich Student und Akademiker. Darüber hinausgehende Zusammenhänge werden jedoch nicht erfasst. So lässt sich mit Hilfe einer Taxonomie z. B. nicht der Sachverhalt abbilden, dass es sich bei dem englischsprachigen Wort „Ph.D Student“ um ein Synonym für das Wort „Doktorand“ handelt. An dieser Stelle setzen Thesauren an, die neben der Kategorisierung auch die Abbildung von Zusammenhängen zwischen verschiedenen Begriffen über vordefinierte Relationen ermöglichen. Auf diesem Wege lassen sich Wörter mit unterschiedlicher Schreibweise oder unterschiedliche Begriffe mit ähnlicher Bedeutung in Verbindung bringen. Ein solcher Thesaurus wird beispielsweise auch in der Textverarbeitungssoftware Microsoft Word verwendet, um dem Autor Vorschläge für alternative Formulierungen zu unterbreiten. Analog dieser Vorgehensweise können Thesauren auch dazu verwendet werden, um sinnverwandte Wörter im Zuge von Suchanfragen zu berücksichtigen.

Sämtliche Eigenschaften von Taxonomien und Thesauren lassen sich auch durch Ontologien abbilden. Sie erfassen darüber hinaus die semantischen Zusammenhänge zwischen den verschiedenen Objekten. Ein solcher Zusammenhang besteht z. B. zwischen einem Autor und einem von ihm verfassten Text, der sich wiederum auf ein bestimmtes Thema bezieht (vgl. Abb. 2).

Abb. 2: Taxonomien, Thesauren und Ontologien

Die wesentliche Stärke von Ontologien im Gegensatz zu anderen Formen der Wissensrepräsentation ist nun darin zu sehen, dass sie neues Wissen aus den vorhandenen Inhalten ableiten können. Dies setzt voraus, dass zuvor bestimmte Regeln (Relationen) spezifiziert werden, anhand derer mit Hilfe einer Ontologie automatisch logische Schlussfolgerungen gezogen werden können. Eine solche Regel auf abstraktem Niveau könnte z. B. lauten (vgl. Abb. 2): Wenn eine „Person“ ein „Dokument“ zu einem „Thema“ verfasst, kennt die „Person“ folglich dieses „Thema“. Aufgrund einer solchen Relation kann die Ontologie nun automatisch die Schlussfolgerung ziehen, dass Student A über Kenntnisse zum Thema Softwarelizenzierung verfügt, ohne dass dieser konkrete Sachverhalt irgendwo explizit dokumentiert ist. Mit dem semantischen Web wird somit der Brückenschlag „von einem Netz aus Verweisstrukturen zu einem Netz aus Inhaltsstrukturen vollzogen“ [Hansen & Neumann 2005, S. 508]. Der zu erwartende Anstieg der Informationsqualität bei Suchanfragen ist bei der Verwendung von Ontologien somit vor allem darauf zurückzuführen, dass Inhalte automatisch strukturiert und in ein bestimmtes Modell der Wissensrepräsentation eingeordnet werden; die in diesem Kontext bestehenden technischen Herausforderungen werden im weiteren Verlauf ausführlich behandelt. Auf so einer Grundlage ließen sich Suchanfragen realisieren, wie z. B. „Welche Personen verfügen über Kenntnisse zum Thema Softwarelizenzierung?“

Abb. 3: Anstieg der Informationsqualität bei semantischen Suchverfahren

.

Technische Grundlagen des semantischen Webs

Um im weiteren Verlauf die praktische Relevanz semantischer Suchmaschinen und deren Beitrag zur Verbesserung der Informationsqualität herausarbeiten zu können, gilt es zunächst auf die grundlegenden Standards für semantische Suchmaschinen einzugehen. Das ist auch insofern von Bedeutung, da das W3C (World Wide Web Consortium ) zu diesem Zweck neue Standards entwickelt hat. Die vorhandenen Internet-Standards genügten den besonderen Anforderungen in diesem Kontext nicht. So sind sie – wie z. B. die Auszeichnungssprache HTML (Hypertext Markup Language) – „lediglich“ darauf ausgerichtet zu spezifizieren, wie Inhalte von Webseiten im Webbrowser dargestellt werden sollen. Die Weiterverarbeitung dieser Informationen durch Maschinen ist nur sehr eingeschränkt möglich. An dieser Stelle setzt XML (Extensible Markup Language) an. Dieser Standard zielt auf die Erstellung von maschinen- und menschenlesbaren Dokumenten, wobei er in den letzten Jahren besonders als Datenaustauschformat an Bedeutung gewonnen hat. Allerdings lassen sich auf Basis von XML noch keine semantischen Informationen abbilden. Um diese Lücke zu schließen, wurde der RDF-Standard verabschiedet (Resource Description Framework), der auf einer XML-Syntax aufbaut und bei dem es sich vereinfacht ausgedrückt um eine Wissens- bzw. Repräsentationssprache handelt, die der Beschreibung von Inhalten auf Grundlage so genannter RDF-Tripples dient [Struckenschmidt/van Harmelen 2005]. So ein Tripple besteht aus einem Subjekt, Prädikat und Objekt und ermöglicht es Maschinen, logische Schlüsse über die auf diesem Wege abgebildeten Zusammenhänge zwischen Subjekten und Objekten zu ziehen. Abbildung 4 zeigt den Aufbau eines solchen RDF-Triples anhand eines konkreten Beispiels.

Abb. 4: Aufbau eines RDF-Tripples

.

Probleme und Herausforderungen im Bereich der semanischen Suche

Wenngleich das Potenzial semantischer Suchmaschinen auf dem ersten Blick viel versprechend erscheint, konnten sie sich in der Praxis bislang noch nicht durchsetzen. Das liegt unter anderem an dem hohen Modellierungsaufwand, der mit der Erstellung von Ontologien verbunden ist. In diesem Kontext wird weiterhin der geringe Standardisierungsgrad von RDF-Aussagen kritisiert [Diestelkamp & Birkenhake 2005]. Während in HTML z. B. eindeutig definiert ist, dass es sich bei dem Tag <H1> um eine Überschrift ersten Grades handelt, findet die Interpretation einer RDF-Aussage erst während der Implementierung statt. Das W3C-Konsortium hat in diesem Zusammenhang nur generische Vorschriften gemacht. Ein weitaus größeres Problem ist jedoch darin zu sehen, dass die im Web vorzufindenden Dokumente zunächst mit Metainformationen angereichert und dann mit einer entsprechenden Ontologie verknüpft werden müssen, um semantische Suchanfragen realisieren zu können. In Anbetracht der rasanten Veränderungsgeschwindigkeit der im Web vorzufindenden Inhalte – pro Woche entstehen etwa 320 Millionen neue Webseiten [Lewandowski 2006] – bereitet das erhebliche Probleme.

Grundsätzlich kann die Anreicherung der Inhalte automatisch oder manuell erfolgen. Im erstgenannten Fall werden Metadaten automatisch aus den Dateien extrahiert, wobei auf unterschiedliche technologische Verfahren zurückgegriffen wird. Ein Beispiel hierfür stellt die Analyse von Bilddateien aufgrund ihrer Farbzusammensetzung oder der Umrisse der gezeigten Motive dar, um auf diesem Wege ähnliche Inhalte zu identifizieren. Einen solchen Ansatz verfolgen z. B. die Bildersuchmaschinen Tiltomo (http://www.tiltomo.com) und Retrievr (http://labs.systemone.at/retrievr/). Verfahren aus dem Bereich des Text-Mining spielen in diesem Zusammenhang ebenfalls eine wichtige Rolle. Diese Verfahren beschäftigen sich mit der Verarbeitung und Auswertung von unstrukturierten Daten – z. B. in Form von Texten auf Webseiten – und nutzen linguistische Methoden der Spracherkennung. Diese Technologien sind jedoch bei weitem noch nicht ausgereift. Vielmehr besteht Einstimmigkeit darüber, dass eine automatische Auswertung der Informationsinhalte nur dann zufrieden stellende Ergebnisse liefert, wenn es um eine schnelle und annäherungsweise Einschätzung geht. „For applications that need near-perfect solutions, human analysts have to be involved to correct errors made by automatic techniques“ [Liu et al. 2005]. An den gegenwärtigen Verfahren im Bereich des Text-Mining wird z. B. kritisiert, dass sie grammatikalische Unterschiede zwischen verschiedenen Sprachen außer Acht lassen. Auch ironische oder sarkastisch formulierte Sätze entziehen sich bislang der maschinellen Verarbeitbarkeit. Allerdings lassen sich rasante Fortschritte in diesem Bereich beobachten. Das Alexandria-Projekt zeigt beispielsweise auf, wie auf Basis frei verfügbarer Taxonomien auf semi-automatischem Wege semantische Netze generiert werden können. In Fall von Alexandria weden z. B. die mit einer bestimmten Person zusammenhängenden Personennetzwerke, Ort und Ereignisse automatisch aus schwach strukturierten Texten extrahiert und die Beziehungstypen der Entitäten untereinander klassifiziert. Am Anwendungsbeispiel “Geschichte” wird aufgezeigt, wie auf dieser Grundlage auf visuellem Wege eine “semantische” Navigation durch einen großen und bis dahin unstrukturierten Datenbestand realisiert werden kann.

Abb. 4: Screenshot aus dem Alexandria-Projekt

In Anbetracht der Problemfelder bei der automatischen Extrahierung von Metadaten erstaunt es kaum, dass auch manuelle Verfahren der Metadatenanreicherung nach wie vor eine wichtige Rolle spielen. In diesem Fall werden die Inhalte durch die Anwender manuell ausgezeichnet. Sie verschlagworten („taggen“) und kommentieren die betreffenden Dateien, woraus ein Beziehungsnetzwerk aus Schlagwörtern und Inhalten entsteht. Eine solche Form der Auszeichnung ist auch für Web 2.0 Anwendungen typisch, bei denen die Anwender eigene Inhalte im Web veröffentlichen. Populäre Beispiele hierfür stellen z. B. Flickr (vgl. www.flickr.com) und YouTube (vgl. www.youtube.com) dar. Dabei werden jedoch keine hierarchischen Strukturen – wie z. B. bei einer Ontologie – zugrunde gelegt, wie bestimmte Themen zusammenhängen. Vielmehr können die Anwender eigene Tags vergeben, zwischen denen dann Relationen berechnet werden. Solche Relationen beziehen sich auf die Häufigkeit, mit der einzelne Begriffe in Kombination miteinander verwendet wurden. Auf Basis dieser so genannten Folksonomies wird dann z. B. auf ähnliche Inhalte geschlossen. Diese Vorgehensweise hat zwar den Vorteil, dass Tags die individuelle Sicht der Anwender erfassen. Allerdings führen unterschiedliche Schreibweisen und subjektive Kombinationen von Tags zu mehr oder weniger diffusen Folksonomies. Dies führt immer wieder zu Fehlern, wenn es z. B. um die Suche nach verwandten Themen und Inhalten geht.

Um die hier skizzierten Probleme zu lösen, beschäftigt man sich in der Informatik gegenwärtig mit der Frage, inwieweit die beiden hier skizzierten Ansätze zusammenführt werden können, um die Vorzüge semantischer Technologien mit den Ansätzen zur Annotierung von Inhalten im Web 2.0 zu kombinieren [Schuster & Rappold 2006, S. 197]. Dabei geht es z. B. um die automatische Extrahierung von Metadaten, um das Tagging zu vereinfachen oder um die Integration der Community in den Prozess der Ontologieentwicklung [Wu et al. 2006].

Neben den nach wie vor gegebenen technischen Herausforderungen muss jedoch konstatiert werden, dass darüber hinaus noch ein wesentlich profaneres Problem besteht. So ist im Kontext semantischer Suchmaschinen eine erhebliche Gefahr darin zu sehen, dass es zu Manipulationsversuchen bei den Metadaten kommt, um eine bessere Platzierung in den Suchergebnislisten zu realisieren. Damit handelt es sich allerdings um kein spezielles Problem semantischer Suchmaschinen. So werden z. B. auch bei herkömmlichen Webseiten Metadaten in den Kopf von Webseiten integriert, die auch von „traditionellen“ Suchmaschinen ausgewertet wurden. Allerdings kam es in diesem Zusammenhang in der Vergangenheit immer wieder zu Manipulationsversuchen, indem z. B. populäre Schlüsselwörter im Kopfelement der Webseite integriert wurden, um möglichst viele Anwender auf die Webseite zu kanalisieren. Das hat dazu geführt, dass diese Metadaten kaum noch von den führenden Suchmaschinen beachtet werden [Maaß/Scherm 2007]. Aus dem gleichen Grund werden die Erfolgsaussichten semantischer Suchmaschinen in Frage gestellt, da sie im hohen Umfang auf qualitativ hochwertige Metadaten angewiesen sind: „Dem Missbrauch semantischer Informationen zur Förderung des Umsatzes von zweifelhaften Waren hat auch das Semantic Web nur wenig entgegenzusetzen. Aus dem Tag-Abuse in HTML wird RDF-Abuse“ [Diestelkamp & Birkenhake 2005].

One Response to “Semantisches Web und semantische Suchmaschinen”

  1. Sebastian Schneider 16. Sep, 2009 at 21:27 #

    Hallo,

    habe nach Informationen zum semantischen Web gesucht und bin hier hängen geblieben. Der Artikel hat mich interessiert und einen schönen Überblick gegeben. Würde mich freuen, wenn es noch mehr in der Richtung geben wird.

    Gruß
    Sebastian

Leave a Reply