Tag Archives: Google

Semantisches Web und semantische Suchmaschinen

7 Jun

semantic-web

Im Zuge des Starts von WolframAlpha, Bing und Google Squared ist die Diskussion um semantische Suchmaschinen wieder verstärkt in den Vordergrund gerückt. In diesem Artikel soll daher das Potenzial semantischer Suchmaschinen genauer hinterfragt werden, wobei auf die folgenden Punkte eingegangen wird:

  • Vision und Grundlagen des semantischen Webs
  • Technische Grundlagen des semantischen Webs
  • Probleme und Herausforderungen im Bereich der semanischen Suche

Die Ausführungen entstammen einem Beitrag, der ich in Zusammenarbeit mit Dr. Gotthard Pietsch in ähnlicher Form in dem von Prof. Dr. Keuper herausgegebenen Band “Information und Wissensmanagement” bereits 2008 veröffentlicht habe.

Vision und Grundlagen des semantischen Webs

Mit dem semantischen Web wird die Vision einer um semantische Informationen angereicherten Version des World Wide Web verfolgt, um den Automatisierungsgrad bei der Verarbeitung von Wissen und damit auch die Informationsqualität im Zuge von Suchanfragen zu erhöhen: „The Semantic Web is not a separate Web but an extension of the current one, in which information is given well-defined meaning, better enabling computers and people to work in cooperation“ [Berners-Lee et al. 2001]. Mit semantischen Informationen sind hier Metadaten gemeint, die die eigentlichen Inhalte in einem maschinenlesbaren Format beschreiben. Auf dieser Grundlage ist es denkbar natürlichsprachige Fragen an das Web zu stellen und entsprechende Antworten zu erhalten [John 2006, S. 5]. Im Gegensatz zu algorithmenbasierten Suchmaschinen würden Suchanfragen somit nicht anhand der Zeichenketten der Suchwörter oder struktureller Kriterien wie der Linkstruktur beurteilt. Vielmehr sollen semantische Suchmaschinen die Bedeutungsinhalte der indizierten Webseiten analysieren und mit diesen Informationen sehr viel genauer die relevanten Seiten für eine spezifische Suchanfrage in der Ergebnisliste präsentieren. Erste Ansätze in diese Richtung geht z. B. die Suchmaschine Powerset, wo der Anwender bereits heute – bislang nur in englischer Sprache – Suchanfragen wie „When was George Washington born?“ stellen kann und eine exakte Antwort erhält (vgl. Abb. 1).

Abb. 1: Semantische Ansätze bei Powerset

Vor diesem Hintergrund stellt sich die Frage, auf welchem Wege Mensch und Computer ein gemeinsames Verständnis über ein bestimmtes Themengebiet und dessen Informationsinhalte aufbauen können. An dieser Stelle setzt die Diskussion um Ontologien an. Mit ihrer Entwicklung wird der Anspruch erhoben, ein gemeinsames Vokabular über einen bestimmten Ausschnitt der Realität zu bilden. Entsprechend führt Gruber aus: „An ontology is an explicit specification of a shared conceptualization“ [Gruber 1995].

Um ein Verständnis für Ontologien zu entwickeln, ist es hilfreich, zunächst auf andere Formen der Wissensrepräsentation, wie z. B. Taxonomien und Thesauren einzugehen. Bei erstgenannten handelt es sich um kontrollierte Vokabulare mit hierarchischen Beziehungen untereinander. Im Beispiel in Abbildung 1 ist die betrachtete Person zugleich Student und Akademiker. Darüber hinausgehende Zusammenhänge werden jedoch nicht erfasst. So lässt sich mit Hilfe einer Taxonomie z. B. nicht der Sachverhalt abbilden, dass es sich bei dem englischsprachigen Wort „Ph.D Student“ um ein Synonym für das Wort „Doktorand“ handelt. An dieser Stelle setzen Thesauren an, die neben der Kategorisierung auch die Abbildung von Zusammenhängen zwischen verschiedenen Begriffen über vordefinierte Relationen ermöglichen. Auf diesem Wege lassen sich Wörter mit unterschiedlicher Schreibweise oder unterschiedliche Begriffe mit ähnlicher Bedeutung in Verbindung bringen. Ein solcher Thesaurus wird beispielsweise auch in der Textverarbeitungssoftware Microsoft Word verwendet, um dem Autor Vorschläge für alternative Formulierungen zu unterbreiten. Analog dieser Vorgehensweise können Thesauren auch dazu verwendet werden, um sinnverwandte Wörter im Zuge von Suchanfragen zu berücksichtigen.

Sämtliche Eigenschaften von Taxonomien und Thesauren lassen sich auch durch Ontologien abbilden. Sie erfassen darüber hinaus die semantischen Zusammenhänge zwischen den verschiedenen Objekten. Ein solcher Zusammenhang besteht z. B. zwischen einem Autor und einem von ihm verfassten Text, der sich wiederum auf ein bestimmtes Thema bezieht (vgl. Abb. 2).

Abb. 2: Taxonomien, Thesauren und Ontologien

Die wesentliche Stärke von Ontologien im Gegensatz zu anderen Formen der Wissensrepräsentation ist nun darin zu sehen, dass sie neues Wissen aus den vorhandenen Inhalten ableiten können. Dies setzt voraus, dass zuvor bestimmte Regeln (Relationen) spezifiziert werden, anhand derer mit Hilfe einer Ontologie automatisch logische Schlussfolgerungen gezogen werden können. Eine solche Regel auf abstraktem Niveau könnte z. B. lauten (vgl. Abb. 2): Wenn eine „Person“ ein „Dokument“ zu einem „Thema“ verfasst, kennt die „Person“ folglich dieses „Thema“. Aufgrund einer solchen Relation kann die Ontologie nun automatisch die Schlussfolgerung ziehen, dass Student A über Kenntnisse zum Thema Softwarelizenzierung verfügt, ohne dass dieser konkrete Sachverhalt irgendwo explizit dokumentiert ist. Mit dem semantischen Web wird somit der Brückenschlag „von einem Netz aus Verweisstrukturen zu einem Netz aus Inhaltsstrukturen vollzogen“ [Hansen & Neumann 2005, S. 508]. Der zu erwartende Anstieg der Informationsqualität bei Suchanfragen ist bei der Verwendung von Ontologien somit vor allem darauf zurückzuführen, dass Inhalte automatisch strukturiert und in ein bestimmtes Modell der Wissensrepräsentation eingeordnet werden; die in diesem Kontext bestehenden technischen Herausforderungen werden im weiteren Verlauf ausführlich behandelt. Auf so einer Grundlage ließen sich Suchanfragen realisieren, wie z. B. „Welche Personen verfügen über Kenntnisse zum Thema Softwarelizenzierung?“

Abb. 3: Anstieg der Informationsqualität bei semantischen Suchverfahren

.

Technische Grundlagen des semantischen Webs

Um im weiteren Verlauf die praktische Relevanz semantischer Suchmaschinen und deren Beitrag zur Verbesserung der Informationsqualität herausarbeiten zu können, gilt es zunächst auf die grundlegenden Standards für semantische Suchmaschinen einzugehen. Das ist auch insofern von Bedeutung, da das W3C (World Wide Web Consortium ) zu diesem Zweck neue Standards entwickelt hat. Die vorhandenen Internet-Standards genügten den besonderen Anforderungen in diesem Kontext nicht. So sind sie – wie z. B. die Auszeichnungssprache HTML (Hypertext Markup Language) – „lediglich“ darauf ausgerichtet zu spezifizieren, wie Inhalte von Webseiten im Webbrowser dargestellt werden sollen. Die Weiterverarbeitung dieser Informationen durch Maschinen ist nur sehr eingeschränkt möglich. An dieser Stelle setzt XML (Extensible Markup Language) an. Dieser Standard zielt auf die Erstellung von maschinen- und menschenlesbaren Dokumenten, wobei er in den letzten Jahren besonders als Datenaustauschformat an Bedeutung gewonnen hat. Allerdings lassen sich auf Basis von XML noch keine semantischen Informationen abbilden. Um diese Lücke zu schließen, wurde der RDF-Standard verabschiedet (Resource Description Framework), der auf einer XML-Syntax aufbaut und bei dem es sich vereinfacht ausgedrückt um eine Wissens- bzw. Repräsentationssprache handelt, die der Beschreibung von Inhalten auf Grundlage so genannter RDF-Tripples dient [Struckenschmidt/van Harmelen 2005]. So ein Tripple besteht aus einem Subjekt, Prädikat und Objekt und ermöglicht es Maschinen, logische Schlüsse über die auf diesem Wege abgebildeten Zusammenhänge zwischen Subjekten und Objekten zu ziehen. Abbildung 4 zeigt den Aufbau eines solchen RDF-Triples anhand eines konkreten Beispiels.

Abb. 4: Aufbau eines RDF-Tripples

.

Probleme und Herausforderungen im Bereich der semanischen Suche

Wenngleich das Potenzial semantischer Suchmaschinen auf dem ersten Blick viel versprechend erscheint, konnten sie sich in der Praxis bislang noch nicht durchsetzen. Das liegt unter anderem an dem hohen Modellierungsaufwand, der mit der Erstellung von Ontologien verbunden ist. In diesem Kontext wird weiterhin der geringe Standardisierungsgrad von RDF-Aussagen kritisiert [Diestelkamp & Birkenhake 2005]. Während in HTML z. B. eindeutig definiert ist, dass es sich bei dem Tag <H1> um eine Überschrift ersten Grades handelt, findet die Interpretation einer RDF-Aussage erst während der Implementierung statt. Das W3C-Konsortium hat in diesem Zusammenhang nur generische Vorschriften gemacht. Ein weitaus größeres Problem ist jedoch darin zu sehen, dass die im Web vorzufindenden Dokumente zunächst mit Metainformationen angereichert und dann mit einer entsprechenden Ontologie verknüpft werden müssen, um semantische Suchanfragen realisieren zu können. In Anbetracht der rasanten Veränderungsgeschwindigkeit der im Web vorzufindenden Inhalte – pro Woche entstehen etwa 320 Millionen neue Webseiten [Lewandowski 2006] – bereitet das erhebliche Probleme.

Grundsätzlich kann die Anreicherung der Inhalte automatisch oder manuell erfolgen. Im erstgenannten Fall werden Metadaten automatisch aus den Dateien extrahiert, wobei auf unterschiedliche technologische Verfahren zurückgegriffen wird. Ein Beispiel hierfür stellt die Analyse von Bilddateien aufgrund ihrer Farbzusammensetzung oder der Umrisse der gezeigten Motive dar, um auf diesem Wege ähnliche Inhalte zu identifizieren. Einen solchen Ansatz verfolgen z. B. die Bildersuchmaschinen Tiltomo (http://www.tiltomo.com) und Retrievr (http://labs.systemone.at/retrievr/). Verfahren aus dem Bereich des Text-Mining spielen in diesem Zusammenhang ebenfalls eine wichtige Rolle. Diese Verfahren beschäftigen sich mit der Verarbeitung und Auswertung von unstrukturierten Daten – z. B. in Form von Texten auf Webseiten – und nutzen linguistische Methoden der Spracherkennung. Diese Technologien sind jedoch bei weitem noch nicht ausgereift. Vielmehr besteht Einstimmigkeit darüber, dass eine automatische Auswertung der Informationsinhalte nur dann zufrieden stellende Ergebnisse liefert, wenn es um eine schnelle und annäherungsweise Einschätzung geht. „For applications that need near-perfect solutions, human analysts have to be involved to correct errors made by automatic techniques“ [Liu et al. 2005]. An den gegenwärtigen Verfahren im Bereich des Text-Mining wird z. B. kritisiert, dass sie grammatikalische Unterschiede zwischen verschiedenen Sprachen außer Acht lassen. Auch ironische oder sarkastisch formulierte Sätze entziehen sich bislang der maschinellen Verarbeitbarkeit. Allerdings lassen sich rasante Fortschritte in diesem Bereich beobachten. Das Alexandria-Projekt zeigt beispielsweise auf, wie auf Basis frei verfügbarer Taxonomien auf semi-automatischem Wege semantische Netze generiert werden können. In Fall von Alexandria weden z. B. die mit einer bestimmten Person zusammenhängenden Personennetzwerke, Ort und Ereignisse automatisch aus schwach strukturierten Texten extrahiert und die Beziehungstypen der Entitäten untereinander klassifiziert. Am Anwendungsbeispiel “Geschichte” wird aufgezeigt, wie auf dieser Grundlage auf visuellem Wege eine “semantische” Navigation durch einen großen und bis dahin unstrukturierten Datenbestand realisiert werden kann.

Abb. 4: Screenshot aus dem Alexandria-Projekt

In Anbetracht der Problemfelder bei der automatischen Extrahierung von Metadaten erstaunt es kaum, dass auch manuelle Verfahren der Metadatenanreicherung nach wie vor eine wichtige Rolle spielen. In diesem Fall werden die Inhalte durch die Anwender manuell ausgezeichnet. Sie verschlagworten („taggen“) und kommentieren die betreffenden Dateien, woraus ein Beziehungsnetzwerk aus Schlagwörtern und Inhalten entsteht. Eine solche Form der Auszeichnung ist auch für Web 2.0 Anwendungen typisch, bei denen die Anwender eigene Inhalte im Web veröffentlichen. Populäre Beispiele hierfür stellen z. B. Flickr (vgl. www.flickr.com) und YouTube (vgl. www.youtube.com) dar. Dabei werden jedoch keine hierarchischen Strukturen – wie z. B. bei einer Ontologie – zugrunde gelegt, wie bestimmte Themen zusammenhängen. Vielmehr können die Anwender eigene Tags vergeben, zwischen denen dann Relationen berechnet werden. Solche Relationen beziehen sich auf die Häufigkeit, mit der einzelne Begriffe in Kombination miteinander verwendet wurden. Auf Basis dieser so genannten Folksonomies wird dann z. B. auf ähnliche Inhalte geschlossen. Diese Vorgehensweise hat zwar den Vorteil, dass Tags die individuelle Sicht der Anwender erfassen. Allerdings führen unterschiedliche Schreibweisen und subjektive Kombinationen von Tags zu mehr oder weniger diffusen Folksonomies. Dies führt immer wieder zu Fehlern, wenn es z. B. um die Suche nach verwandten Themen und Inhalten geht.

Um die hier skizzierten Probleme zu lösen, beschäftigt man sich in der Informatik gegenwärtig mit der Frage, inwieweit die beiden hier skizzierten Ansätze zusammenführt werden können, um die Vorzüge semantischer Technologien mit den Ansätzen zur Annotierung von Inhalten im Web 2.0 zu kombinieren [Schuster & Rappold 2006, S. 197]. Dabei geht es z. B. um die automatische Extrahierung von Metadaten, um das Tagging zu vereinfachen oder um die Integration der Community in den Prozess der Ontologieentwicklung [Wu et al. 2006].

Neben den nach wie vor gegebenen technischen Herausforderungen muss jedoch konstatiert werden, dass darüber hinaus noch ein wesentlich profaneres Problem besteht. So ist im Kontext semantischer Suchmaschinen eine erhebliche Gefahr darin zu sehen, dass es zu Manipulationsversuchen bei den Metadaten kommt, um eine bessere Platzierung in den Suchergebnislisten zu realisieren. Damit handelt es sich allerdings um kein spezielles Problem semantischer Suchmaschinen. So werden z. B. auch bei herkömmlichen Webseiten Metadaten in den Kopf von Webseiten integriert, die auch von „traditionellen“ Suchmaschinen ausgewertet wurden. Allerdings kam es in diesem Zusammenhang in der Vergangenheit immer wieder zu Manipulationsversuchen, indem z. B. populäre Schlüsselwörter im Kopfelement der Webseite integriert wurden, um möglichst viele Anwender auf die Webseite zu kanalisieren. Das hat dazu geführt, dass diese Metadaten kaum noch von den führenden Suchmaschinen beachtet werden [Maaß/Scherm 2007]. Aus dem gleichen Grund werden die Erfolgsaussichten semantischer Suchmaschinen in Frage gestellt, da sie im hohen Umfang auf qualitativ hochwertige Metadaten angewiesen sind: „Dem Missbrauch semantischer Informationen zur Förderung des Umsatzes von zweifelhaften Waren hat auch das Semantic Web nur wenig entgegenzusetzen. Aus dem Tag-Abuse in HTML wird RDF-Abuse“ [Diestelkamp & Birkenhake 2005].

Der Markt für Internet-Suchmaschinen

17 Mai

von Christian Maaß, Andre Skusa, Andreas Heß und Gotthard Pietsch

SuchmaschinenmarktMit dem exponentiellen Wachstum des Internets sind Suchmaschinen wie Google und Yahoo zu den meistgenutzten Internetanwendungen avanciert, die etwa 90 Prozent der Internetnutzer in Deutschland regelmäßig zu Recherchezwecken nutzen (vgl. auch AGOF 2008). Insbesondere im Vorfeld von Kaufentscheidungen spielen sie – sowohl für Unternehmen als auch Privathaushalte – eine immer wichtigere Rolle, um gezielt nach bestimmten Produkten und/oder Dienstleistungen zu recherchieren (vgl. Maaß/Scherm 2007). Zur Befriedigung ihrer Informationsbedürfnisse können die Anwender grundsätzlich auf verschiedene Suchmaschinen zurückgreifen; allein für den deutschsprachigen Raum sind weit über hundert verschiedene Suchmaschinen verfüg-bar (vgl. für einen Überblick z. B. www.mysuche.de).

Mit Blick auf die Praxis muss jedoch ein Oligopol algorithmenbasierter Suchmaschinen – bestehend aus Google, Yahoo und MSN – konstatiert werden, dass den weltweiten Markt dominiert und dessen Vormachtstellung man in der Öffentlichkeit bereits seit geraumer Zeit kritisiert. Teilweise wird in diesem Zusammenhang darauf hingewiesen, dass aufgrund dieser Marktkonstellation eine Gefahr für die Informationsvielfalt und -auswahl im Internet besteht, die nahezu durch eine Handvoll Unternehmen mit kommerziellen Interessen beeinflusst wird (vgl. hierzu auch Gasser/Thurman 2007). Zu ähnlichen Äußerungen kommt es seitens der Bundesregierung (vgl. Die Grünen 2005, 2006), die bereits seit längerer Zeit auf die Monopolisierungstendenzen im Suchmaschinenmarkt hinweist und sich für ein größeres Angebot alternativer Suchdienste ausspricht. Grundsätzlich kann man in jüngerer Zeit auch beobachten, dass in zunehmenden Maße Suchmaschinen mit alternativen Suchansätzen in den Markt treten. Exemplarisch hierfür seien die vom Wikipedia-Gründer Jimmy Wales gegründete Suchmaschine Wikia (vgl. www.wikia.com) oder die zahlreichen sozialen Suchdienste genannt, bei denen die Anwender in die Generierung des Indexes bzw. der Suchergebnisse einbezogen werden (vgl. hierzu z. B. Gräfe/Maaß 2008). Immer häufiger wird auch über die Bedeutung der Suche mit mobilen Endgeräten debattiert, in der man einen großen Wachstumsmarkt sieht. In Anbetracht dieser Entwicklungstendenzen drängen sich unweigerlich verschiedene Fragen auf, die mit der Wettbewerbssituation auf dem Suchmaschinenmarkt zusammenhängen:

  • Welche alternativen Suchansätze gibt es?
  • Welche Marktchancen haben Suchmaschinen mit neuen Suchansätzen?
  • Inwieweit ist die Marktposition algorithmenbasierter Suchmaschinen gegenwärtig angreifbar?

Im weiteren Verlauf dieses Beitrags werden diese Fragen ausführlicher diskutiert. Zu diesem Zweck gilt es zunächst die Entwicklung und wirtschaftliche Bedeutung des Suchmaschinenmarktes aufzuarbeiten. Sodann erfolgt auf Basis einer industrieökonomischen Perspektive die Auseinandersetzung mit den hier skizzierten Fragestellungen. Ein Fazit fasst die erarbeiteten Ergebnisse zusammen.

Der Beitrag wird in ähnlicher Form im “Handbuch Suchmaschinen” erscheinen, das von Prof. Dr. Dirk Lewandowski herausgegeben wird und im Sommer/Herbst erscheint.

Download: Der Markt für Internet-Suchmaschinen (First Draft!)

Soziale Suchdienste und algorithmenbasierte Suchmaschinen im Vergleich

16 Mär

Soziale Suchdienste und algorithmenbasierte Suchmaschinen im Vergleich

In jüngerer Zeit kann man beobachten, dass im zunehmenden Maße Suchmaschinen mit alternativen Suchansätzen in den Markt treten. Eine besondere Rolle spielen dabei die so genannten sozialen Suchdienste, die in verschiedenen Ausprägungsformen existieren und bei denen die Anwender – im Gegensatz zu Suchmaschinen wie Google, Yahoo oder Ask – in die Generierung des Indexes einbezogen werden. Bislang steht die wissenschaftliche Auseinandersetzung mit solchen Suchdiensten jedoch noch am Anfang. Im Rahmen eines Projektes mit Prof. Dr. Dirk Lewandowski haben wir im Wintersemester 2007/2008 daher ein Seminar zum Thema „Soziale Suchdienste“ durchgeführt. Dabei ging es unter anderem darum, die Trefferrelevanz von algorithmenbasierten Suchmaschinen mit sozialen Bookmarksystemen und Frage-Antwort-Diensten zu vergleichen. An dieser Stelle möchte ich in Kurzform einen Teil der Ergebnisse vorstellen, die in wenigen Wochen ausführlicher als Herausgeberband erscheinen; die unten skizzierten Ergebnisse entstammen der Seminararbeit von Olga Gammer, Heidi Meißner, Magdalena Preckel und Robert Oehlert.

Um eine Antwort darauf zu finden, inwieweit soziale Suchdienste mit Google & Co. konkurrieren können, wurde ein Relevanztest mit den folgenden drei Suchdiensttypen durchgeführt:

  • Bei den algorithmenbasierten Suchmaschinen wurden Google, Yahoo und MSN gewählt, bei denen es sich um die drei größten Suchmaschinen mit einem eigenen Index handelt.
  • Mit Mister Wong und del.icio.us wurden das bekannteste deutschsprachige und englischsprachige soziale Bookmarksystem in die Untersuchung mit aufgenommen.
  • Schließlich wurden auch die Frage-Antwort-Dienste LycosIQ und Yahoo Clever in die Auswertung einbezogen, die ebenfalls als eine Ausprägung sozialer Suchdienste anzusehen sind.

An jeder der hier genannten Suchdienste wurden über 50 Suchanfragen gestellt, deren Ergebnisse einer Gruppe von Juroren anonymisiert vorgelegt wurde. Den Juroren war somit weder der Rank der Suchergebnisse noch die zu evaluierende Suchmaschine bekannt. Unter anderem wurden dabei die

  • Precision der Suchergebnisse,
  • Verständlichkeit der Suchergebnisse und
  • Vertrauenswürdigkeit der Suchergebnisse bewertet.

Die Precision bezieht sich auf den prozentualen Anteil der relevanten Treffer im Vergleich zur Gesamtzahl der gefundenen Treffer. Dabei stellte sich heraus, dass Google mit einer Precision von 46 Prozent am besten abschnitt (vgl. Abb. 1). Im Vergleich zu MSN liefert Google etwa 15 Prozent mehr relevante Treffer. Vergleicht man die algorithmischen Suchmaschinen mit den Social-Bookmarking- und Frage-Antwort-Diensten, erzielen letztgenannte deutlich mehr relevante Ergebnisse. Das insgesamt schlechte Abschneiden der Bookmarksysteme wurde vor allem darauf zurückgeführt, dass sie sehr viele tote Treffer aufweisen und offenbar Probleme haben, ihren Index auf einem aktuellen Stand zu halten.

Precision

Abb. 1: Precision der Suchergebnisse

Auch im Hinblick auf die Verständlichkeit der Suchergebnisse, wiesen die Bookmarksysteme den größten Anteil unverständlicher Treffer auf. Besonders auffällig war dabei, dass die Juroren bei del.icio.us 25 Prozent aller Treffer als unverständlich bewerteten (vgl. Abb. 2).

Verständlichkeit

Abb. 2: Verständlichkeit der Suchergebnisse

Weiterhin wurde überprüft, inwieweit die Suchergebnisse als vertrauenswürdig wahrgenommen wurden. Auch bei diesem Kriterium schnitten Google & Co. eindeutig besser als soziale Bookmarksysteme ab (vgl. Abb. 3).

Vertrauen

Abb. 3: Vertrauenswürdigkeit der Suchergebnisse

Aus den an dieser Stelle nur knapp skizzierten Ergebnissen geht hervor, dass soziale Suchdienste zum gegenwärtigen Zeitpunkt noch nicht mit algorithmenbasierten Suchmaschinen konkurrieren können. Dem ist aber auch hinzuzufügen, dass soziale Bookmarkdienste zur Verwaltung privater Linksammlungen und nicht als Suchdienst konzipiert wurden.

Nachtrag (20.03.2008): Die vollständigen und ausführlichen Ergebnisse dieses studentischen Projektes werden Mitte 2008 sowohl als Herausgeberband als auch als kostenloses PDF veröffentlicht. Die PDF-Datei wird auf der Seite von Prof. Dr. Dirk Lewandowski und auf dieser Seite veröffentlicht.

Alternative Suchdienste: Sieben Thesen zur Bedeutung des Social Bookmarking

6 Mär

von Christian Maaß, Gernot Gräfe und Andreas Heß

sabreMit dem exponentiellen Wachstum des Internet sind Suchmaschinen wie Google und Yahoo zu den meistgenutzten Internetanwendungen avanciert, die etwa 90 Prozent der Internetnutzer in Deutschland regelmäßig zu Recherchezwecken nutzen (vgl. auch AGOF 2007). Insbesondere im Vorfeld von Kaufentscheidungen spielen sie – sowohl für Unternehmen als auch Privathaushalte – eine immer wichtigere Rolle, um gezielt nach bestimmten Produkten und/oder Dienstleistungen zu recherchieren (vgl. Maaß 2008). Zur Befriedigung ihrer Informationsbedürfnisse können die Anwender grundsätzlich auf verschiedene Suchmaschinen zurückgreifen; alleine auf der Internetseite „Suchfibel“ sind mehr als 600 verschiedene Suchmaschinen aufgelistet (vgl. www.suchfibel.de). Mit Blick auf die Praxis muss jedoch ein Oligopol algorithmenbasierter Suchmaschinen – bestehend aus Google, Yahoo und MSN – konstatiert werden, dass den weltweiten Markt dominiert.

Die Vormachstellung von Google und Co. wird in der Öffentlichkeit bereits seit geraumer Zeit kritisiert. Teilweise sieht darin z. B. eine Gefahr im Hinblick auf die Informationsvielfalt und -auswahl im Internet, die faktisch durch eine Handvoll Unternehmen mit kommerziellen Interessen beeinflusst wird. Zu ähnlichen Äußerungen kommt es seitens der Bundesregierung, die bereites seit längerer Zeit auf die Monopolisierungstendenzen im Suchmaschinenmarkt hinweist und sich für ein größeres Angebot alternativer Suchdienste ausspricht (vgl. 2006). Es erstaunt daher kaum, dass immer häufiger die Frage gestellt wird, inwieweit alternative Suchdienste in qualitativer Hinsicht mit algorithmenbasierten Suchmaschinen konkurrieren und zu einer Verbesserung der Internetsuche beitragen können (vgl. Neymanns 2005).

Vor diesem Hintergrund ist in der Wirtschaftspresse häufig von so genannten soziale Bookmarksystemen die Rede, bei denen Webseiten nicht von einem Suchmaschinenroboter, sondern von teilweise mehreren tausend Menschen gemeinschaftlich indiziert und bereits als Alternative zu Google & Co. angesehen werden. „Allerdings ist es erstaunlich, dass [...] nur wenige Untersuchungen zur Qualität von Suchmaschinen vorliegen, sowohl international als auch (besonders eklatant) im deutschsprachigen Raum“ (Lewandowski 2007, S. 244-245). In einem in Zusammenarbeit mit Gernot Gräfe und Andreas Heß entstandenen Beitrag erarbeiten wir daher sieben Hypothesen zur zukünftigen Bedeutung sozialer Bookmarksysteme im Bereich der Internetsuche, um eine konzeptionelle Grundlage für weitere Studien in diesem Kontext zu legen. Der hier angehängte Beitrag wurde auf der SABRE-Konferenz 2007 in der Rubrik “Social Semantic Web” präsentiert.

Download: Alternative Suchdienste: Sieben Thesen zur zukünftigen Bedeutung des Social Bookmarking

 

Literatur

Die Grünen (2006): Google verleibt sich YouTube ein – und wird noch mächtiger, Onlinedokument 2006.

Lewandowski, D. (2007): Mit welchen Kennzahlen lässt sich die Qualität von Suchmaschinen messen? In: Machill, M.; Beiler, M. (Hrsg.): Die Macht der Suchmaschinen, Köln, 2007, S. 243-258.

Maaß, C.: E-Business Management – Gestaltung von Geschäftsmodellen in der vernetzten Wirtschaft, Stuttgart, 2008.

Neymanns, H. (2005): Suchmaschinen: Das Tor zum Netz, Bundestagsfraktion der Grünen, Berlin, Onlinedokument 2005.

Suchbefehle für Google

1 Mär

Empirische Studien weisen darauf hin, dass die meisten Suchanfragen bei Google & Co. im Durchschnitt aus lediglich ein bis zwei Suchwörtern bestehen. Weiterführende Parameter oder Suchoptionen werden nur in den seltensten Fällen genutzt. In der Regel sind viele Suchbefehle sogar vollkommen unbekannt. Dies gilt z. B. für Suchanfragen, um nach MP3-Dateien, Aktienkursen oder bestimmten Dokumenten zu recherchieren. In diesem Beitrag sollen daher ausgewählte Suchbefehlte vorgestellt werden, um Suchanfragen präziser formulieren zu können.

Einfache Suchbefehle:
Um Google bestmöglich nutzen zu können, reichen oftmals schon einfache Suchbefehle aus, um Suchanfragen zu präzisieren.

  • Suchwort A +Suchwort B: Das Wort hinter dem „+“ muss in den Suchergebnissen auftauchen.
  • Suchwort A -Suchwort B: Das Wort hinter dem „-“ darf nicht in den Suchergebnissen vorkommen. Anders formuliert wird nur nach dem Suchwort A, nicht jedoch nach Suchwort B gesucht.
  • „Suchwort A Suchwort B“: Es werden nur Suchergebnisse angezeigt, bei denen die Suchwörter zwischen den Anführungszeichen in exakter Reihenfolge aufgelistet werden.
  • *bahn: Bei dieser Suchanfrage fungiert der Stern fungiert als Platzhalter. In den Suchergebnissen führt Google alle Ergebnisse auf, die auf „bahn“ enden, wie z. B. Autobahn, Eisenbahn, etc.
  • ~auto: Durch diese Suchanfrage werden in der englischen Version von Google nach Synonymen gesucht. Bei dem hier verwendeten Beispiel würde Google insofern Seiten mit dem Begriff „Auto“ und „car“ auflisten.

Fortgeschrittene Suchbefehle:

Neben diesen Basisbefehlten kann man mit Google auch gezielt nach Musikdateien oder Filmen recherchieren. Es ist jedoch wichtig darauf hinzuweisen, dass die dabei identifizierten Webseiten teilweise illegale Inhalte enthalten können. Im Folgenden werden diese weiterführenden Suchbefehle skizziert.

  • Der Befehl -inurl:htm -inurl:html intitle:”index of” mp3 “madonna” zeigt alle Webseiten zum Suchbegriff „Madonna“ auf, bei denen MP3-Dateien in ungeschützten Verzeichnissen liegen. Analog kann man nach anderen Interpreten suchen.
  • Einfacher gestaltet sich die Suche nach MP3 jedoch mit den diversen MP3 Suchmachinen, die in den letzten Monaten enstanden sind, wie z. B. BeemMP3, Skreemr oder Tagoo. Einen ausführlichen Bericht zu MP3-Suchmaschinen gibt es bei Heise-Online.

Fortsetzung folgt.