Archive | Internetthemen RSS feed for this section

Verdrängen soziale Netzwerke traditionelle Mailanbieter?

11 Mai

social-networks

Eine aktuelle Studie kommt zu dem Ergebnis, dass Anwender mehr Zeit in sozialen Netzwerken als mit der Bearbeitung von Mails verbringen. Die Auseinandersetzung mit diesem Thema gründet auf der Beobachtung, dass die Kommunikation im Internet im zunehmenden Maße über soziale Netzwerken wie Xing, StudiVZ oder Facebook abläuft, während traditionelle Mailangebote – vor allen von Jugendlichen – als Kommunikationstool an Bedeutung verlieren (vgl. in diesem Zusammenhang auch Netzwertig). Dabei stellt sich jedoch die Frage, wie man diese Entwicklung – mehr oder weniger zuverlässig – quantitativ belegen kann. Alleine aufgrund der Anzahl der Unique User ist ein solcher Rückschluss sicherlich zu abstrakt und es lassen sich lediglich allgemeine Aussagen bezüglich der Popularität einzelner Produktkategorien ableiten (vgl. hierzu Abb. 1 – Quelle: emarketer).

Erste Anhaltspunkte in diese Richtung geben jedoch Indikatoren wie die Entwicklung der „Seitenbesuche je Monat und Angebot“. Dem liegt die Annahme zugrunde, dass ein Großteil der Anwender fast täglich oder zumindest mehrmals pro Woche seine Mails kontrolliert. Wenn soziale Netzwerke traditionelle Mailangebote wie GMX und WEB.DE tatsächlich verdrängen, müsste sich dies zumindest im Zeitverlauf in einem Anstieg/Rückgang der Vists per Unique Vistor widerspiegeln.

Die folgende Abbildung zeigt vor diesem Hintergrund die Entwicklung der Visits per Unique Visitor von Xing, StudiVZ, WER-KENNT-WEN und GMX sowie WEB.DE im Überblick. Danach werden soziale Netzwerke zum Teil deutlich häufiger als traditionelle Mailangebote frequentiert. Einen massiven Rückgang der Visits per Visitor bei traditionellen Mailangeboten kann man gegenwärtig jedoch noch nicht beobachten, weshalb von einer Verdrängung zum gegenwärtigen Zeitpunkt sicherlich noch nicht gesprochen werden kann.

Der hier skizzierte Kurvenverlauf verwundert jedoch nicht. So ist davon auszugehen, dass die bisherigen Mailnutzer nicht ohne weiteres ihre bisherigen Mailaccounts kurzfristig löschen und die elektronische Kommunikation vollständig über Soziale Netzwerke abwickeln. Viemehr ist anzunehmen, dass es sich bei der Verlagerung der Nutzungsschwerpunkte um einen stetigen und langfristigen Prozess handelt, bei dem es in Abhängigkeit der auszutauschenden Inhalte zu einer partiellen Nutzungsveränderung kommt. Die folgende Abbildung zeigt in diesem Zusammenhang z. B. auf, dass Facebook und Twitter in Summe bereits heute einen höhren Stellwert als die traditionelle eMail haben,  wenn es um den Austausch von aktuellen Nachrichten, Links oder Bildern geht (vgl. Business Insider 2009).

chartoftheday

Die hier skizzierten Entwicklungstendenzen sind aber nicht nur für Mailanbeiter wie GMX oder WEB.DE von Bedeutung. So erscheint es offensichtlich, dass auch Medienunternehmen oder E-Commerce-Betreiber ihre Inhalte wesentlich offener und proaktiver als in der Vergangeheit zur Verfügung stellen sollten, um ihre Reichweiten auszubauen.  Bezogen auf den deutschsprachigen Raum muss allerdings konstantiert werden, dass die Auseinandersetzung mit diesen Themen bei “traditionellen” Unternehmen häufig noch am Anfang steht.

Best Paper Award: Multi-value Classification of Very Short Texts

15 Mär

springer

Das Konzept des Tagging – also die manuelle Annotierung von Inhalten durch Anwender – ist ein zentraler Bestandteil zahlreicher Web 2.0-Anwendungen. Allerdings deuten emprische Untersuchungen und Erfahrungswerte aus der Praxis darauf hin, dass viele Anwender dieses Konzept nicht verstehen oder – selbst wenn sie mit dem Tagging vertraut sind – nur selten Tags vergeben. Gleichzeitig besteht das Problem, dass zahlreiche Tags falsch geschrieben werden und die so genannten Tag Clouds im Praxisbetrieb regelrecht ausufern. Es stellt sich daher die Frage, inwieweit man das Konzept des Tagging automatisieren kann, um z. B. eine Annotierung der Inhalte sicherzustellen und evt. Fehler auszuschließen.

Vor diesem Hintergrund haben wir einen Algorithmus zur Textklassifikation von kurzen Texten entwickelt und im Praxisbetrieb evaluiert. Wir zeigen auf, dass auf Basis eines solchen Verfahrens die Qualität der Metadaten gesteigert werden kann.

Der Beitrag wurde auf der Konferenz für künstliche Intelligenz mit dem Best Paper Award ausgezeichnet, der von Springer gesponsort wurde.

Download des Beitrags: Multi-value Classification of Very Short Texts

Soziale Suchdienste vs. Google & Co.

5 Sep

social-search

Vortrag zur Bedeutung sozialer Suchdienste auf der Jahreskonferenz des Fachbereichs “Mensch-Computer-Interaktion” der Gesellschaft für Informatik am 8. September in Lübeck

Soziale Suchdienste wurden in jüngerer Zeit immer häufiger als alternative Suchansätze dargestellt. Bislang existieren jedoch kaum empirische Untersuchungen, die das Potenzial solcher Dienste als “Suchmaschine” hinterfragen.

Vor diesem Hintergrund wurde im Rahmen eines Forschungsprojektes – in Zusammenarbeit mit den Unternehmen T-Online, Lycos und der Hochschule für angewandte Wissenschaft in Hamburg – hinterfragt, welches Potenzial mit soziale Suchdiensten als alternativer Suchansatz einhergeht. Zu diesem Zweck wurde auf den Portalen von T-Online und Lycos im Frühjahr 2008 eine Umfrage durchgeführt. Ziel dabei war es, den Bekanntheitsgrad, die Nutzungsintensität, die Zufriedenheit sowie die Gründe für die Nutzung/Nichtnutzung algorithmenbasierter und sozialer Suchdienste zu hinterfragen. Weiterhin wurden Retrievaltests durchgeführt, um die Ergebnisqualität verschiedener Suchdienste auswerten zu können; dabei wurden die Suchdienste Google, Yahoo, Live Search, Lycos iQ, Yahoo Clever, Mister Wong und del.icio.us untersucht. Die zentralen Ergebnisse dieser Untersuchung – insgesamt lagen 915 auswertbare Fragebögen vor – lassen sich dabei wie folgt zusammenfassen; eine umfassendere Darstellung findet sich in der weiter unten zum Download zur Verfügung gestellten Präsentation sowie in dem als Buch veröffentlichten Projektbericht.

  • Soziale Suchdienste sind zum gegenwärtigen Zeitpunkt nur einem kleinen Teil der Anwender bekannt: 40 % der Befragten kannten keine Frage-Antwort-Dienste und 70 % der Befragten waren soziale Bookmarkdienste unbekannt. Im Gegensatz dazu waren mit algorithmenbasierte Suchmaschinen lediglich 1,6 % der Befragten nicht vertraut.
  • 25 % der Anwender, die Frage-Antwort-Dienste kennen, nutzten diese Dienste mindestens einmal pro Woche. Zum Vergleich: 80 % der Befragten nutzen mindestens einmal pro Woche algorithmenbasierte Suchmaschinen.
  • An Frage-Antwort-Diensten wurde kritisiert, dass die Antworten nicht zu den Fragen passen (36 % der Befragten) und viele Antworten nur schwer verständlich sind (27,7 % der Befragten). Die Hauptkritikpunkte bei algorithmenbasierten Suchmaschinen lagen hingegen in störenden Werbeeinblendungen (46 % der Befragten) und der zu großen Treffermenge (34 % der Befragten).
  • Bei sozialen Bookmarksystemen sahen etwa 60 % der Befragten – die diese Dienste kannten – keinen Nutzungsgrund. Für zahlreiche Anwender blieb auch unklar, wie sie diese Dienste bedienen sollen. Ferner wurde die hohe Anzahl toter Links bei diesen Suchdiensten bemängelt.
  • Ein grundlegendes Problem bereitet gegenwärtig das – für viele soziale Suchdienste essentielle – Konzept des Tagging: Fast 70 % der Befragten war mit diesem Konzept nicht vertraut. Weiterhin gaben 36 % der Befragten – die mit dem Tagging vertraut sind – an, selten oder nie Tags zu vergeben.
  • Retrievaltests kamen schließlich zu dem Ergebnis, das die Ergebnisqualität sozialer Suchdienste zum gegenwärtigen Zeitpunkt nicht an algorithmenbasierte Suchmaschinen heranreicht. Insbesondere soziale Bookmarksysteme schnitten in diesem Test schlecht ab.

Insgesamt deuten die Ergebnisse darauf hin, dass soziale Suchdienste zum gegenwärtigen Zeitpunkt nur bedingt als alternativer Suchansatz fungieren können. Dem ist aber auch hinzuzufügen, dass diese Dienste für die Anwender dennoch einen hohen Nutzen stiften, z. B. im Form der Verwaltung persönlicher Linklisten oder Diskussionen bei Frage-Antwort-Diensten.

Die Projektergebnisse werden am 8. September auf der Jahreskonferenz des Fachbereichs Mensch-Computer-Interaktion der Gesellschaft für Informatik vorgestellt. Eine Kurzpräsentation der Ergebnisse steht an dieser Stelle zum Download zur Verfügung.

 

Visuelle Suche: Marktüberblick und Trends

20 Jul

Es ist allgemein bekannt, dass algorithmenbasierte Suchmaschinen wie Google und Yahoo zu den meistgenutzten Internetanwendungen zählen. Dies bedeutet allerdings nicht, dass solche Suchmaschinen automatisch die besten Suchergebnisse liefern und besonders anwenderfreundlich sind. Nicht zuletzt aus diesen Gründen wird seid geraumer Zeit über alternative Suchdienste diskutiert. Dabei steht momentan die Auseinandersetzung mit semantischen Suchdiensten im Vordergrund (wie z. B. Powerset, Evri, Hakia, Trueknowledge, Spock, etc.), die eine Formulierung natürlichsprachiger Suchanfragen unterstützen sollen – so die Vision. Die in diesem Zusammenhang geführte technische Diskussion stellt vordergründig auf Themen wie Maschinenlernen, Natural Language Processing oder SPARQL ab. Weitaus weniger Beachtung wurde in letzter Zeit der Präsentation von Suchergebnissen und der Navigation durch die Ergebnislisten geschenkt. Gerade aber in diesem Bereich lassen sich interessante Ansätze identifizieren, die – vor allem im Bereich der vertikalen Suche – einen deutlichen Mehrwert im Vergleich zu horizontalen Suchmaschinen wie Google bieten. Im weiteren Verlauf werden daher ausgewählte Suchmaschinen vorgestellt, die sich mit der Visualisierung von Suchergebnisseiten und der Navigation durch große Datenbestände beschäftigen. Die in diesem Zusammenhang diskutierten Ansätze lassen sich drei Themenbereichen zuordnen:

  • Visuelle Suche im E-Commerce
  • Zeit- und domänenspezifische Visualisierung von Suchergebnissen
  • Visuelle Suchansätze ohne thematischen Schwerpunkt

Visuelle Suchansätze im E-Commerce haben insbesondere im Zuge der Auseinandersetzung mit dem viel beschworenen Web 2.0 an Bedeutung gewonnen. Kennzeichnend für diese Suchmaschinen ist es, dass sie eine farb- oder konturenbasierte Suche unterstützen, um z. B. ähnliche Kleidungsstücke zu identifizieren. Bekannte Beispiele für diesen Suchmaschinentyp sind Like.com, Pixsta, Etsy oder DaWanda. Wenngleich mit einer stark visuell ausgerichteten Präsentation der Suchergebnisse lange Ladezeiten einhergehen, bieten sie dennoch einen entscheidenden Vorteil für die Shopbetreiber: Im Vorfeld von Kaufentscheidungen suchen potenzielle Käufer gezielt im Internet nach Fotos und Videos. Eine visuelle Suche kann insofern – in Abhängigkeit der angebotenen Produkte – in idealtypischer Weise die Informationsbedürfnisse der Anwender befriedigen. Besonders deutlich kommt dieser Vorteil im Automobilbereich zum tragen. So kommt eine Studie von eMarketer zu dem Ergebnis, dass ein Käufer durchschnittlich zwischen vier und sechs Stunden im Internet nach Fotos und Videos ihrer präferierten Fahrzeuge suchen. 60 % dieser Zeit enfällt dabei auf die Suche nach Bildern und Videos. Die verbleibenden Zeit verwenden die Kaufinteressenten mit der Suche nach textbasierten Informationen (z. B. Preise, Leistungsmerkmale etc.), die jedoch erst im späteren Zeitpunkt des Kaufentscheidungsprozesses an Bedeutung gewinnen.

Eine Vorreiterrolle im Bereich der visuellen Suche nimmt ebenfalls der C2C-Marktplatz Etsy ein, der z. B. die ortsbasierte Suche nach Verkäufern auf visuellem Wege unterstützt. Mit lediglich einem Klick auf eine Landkarte erhält der Anwender hier Informationen zu verschiedenen Anbietern. Darin ist eine Vereinfachung bei der Suche zu sehen, da die Anwender nicht mehr dazu gezwungen sind, teilweise sehr komplexe Suchmasken auszufüllen, wie das z. B. bei Spezialsuchen im Immobilienbereich der Fall ist.

Auf einer ähnlichen Grundidee wie Etsay basiert BrowseGoods. Der Anwender kann hier – im einfachsten Fall durch die Bedienung der Scrollradfunktion einer herkömmlichen Maus – in Produktgruppen zoomen, um durch verschiedenen Produktvarianten zu navigieren. Gleichzeitig wird aus der Größe der verschiedenen Kategorien ersichtlich, wie viele Produkte der jeweiligen Kategorie zugeordnet sind.

Unter dem Stichwort „zeitbasierte Visualisierung“ werden solche Suchansätze subsumiert, die eine zeitbasierte Sortierung und visuelle Aufarbeitung der Suchergebnisse unterstützen. Eine solche zeitbasierte Visualisierung bieten redaktionell gepflegte Angebote bereits seid geraumer Zeit an. Exemplarisch hierfür sei z. B. die BBC Library genannt. Bei diesem Projekt werden historische Ereignisse aus dem Vereinigten Königreich auf einer Zeitleiste abgetragen. Auf diesem Wege ist es für den Anwender faktisch möglich, die Geschichte im Zeitverlauf zu durchreisen. Die technische Herausforderung bei visuellen Suchverfahren ist nun darin zu sehen, eine entsprechende Aufarbeitung die Suchergebnisse auf automatischen und nicht auf manuellem Wege zu generieren. In diesem Zusammenhang stellt sich z. B. die Frage, an welcher Stelle einer Zeitleiste ein im Jahr 2008 verfasster Artikel über die Rolle Otto von Bismarcks im Zuge der Gründung des deutschen Kaiserreichs visualisiert werden sollte. Es erstaunt wahrscheinlich kaum, dass die Realisierung einer solchen Informationsvisualisierung einen erheblichen Aufwand verursacht. So besteht z. B. ein Bedarf an NLP-Tools und verschiedenen linguistischen Verfahren, um bestimmte Entitäten (z. B. Personen, Ereignisse etc.) extrahieren auf einer Zeitleiste zueinander in Bezug zu setzen. Eine solche Umsetzung erfolgt z. B. im Alexandria-Projekt.

In eine ähnliche Richtung wie das Alexandria-Projekt geht auch die Nachrichtensuche SiloBreaker. Auf Grundlage von News-Feeds werden hier Nachrichten in Form von Personennetzwerken visualisiert, wobei zum einen Beziehungen zwischen Personen untereinander und Beziehungen zwischen Personen und Ereignissen angezeigt werden. In so einem Netz wird im Zuge der Suchanfrage nach Hillary Clinton z. B. eine enge Beziehung zu Barack Obama und den Ereignissen “Präsidentschaftswahl” und “SuperTuesday” aufgezeigt. Zum anderen bietet SiloBreaker in Abhängigkeit des Veröffentlichungszeitpunktes der News-Feeds eine visuelle Auswertung des Artikelvolumens an, um Trends bezüglich der Popularität bestimmter Themen zu visualisieren.

Weiterhin lassen sich im Bereich der vertikalen Suche verschiedene Ansätze identifizieren, die auf eine starke Visualisierung ihrer Daten oder auf ein besonders Informationsdesign setzen. Bei Marumushi handelt es sich um eine Art Nachrichtensuche, bei der die Nachrichten in Abhängigkeit ihrer Domäne und Veröffentlichungszeitpunktes in verschiedenen Farben und Größen dargestellt werden. Damit wird die Aufmerksamkeit des Lesers auf visuellem Wege auf bestimmte Themen gelenkt, die zum Zeitpunkt des Seitenbesuchs als besonders wichtig zu werten sind. Die Dienste MusicMap und Musicovery kann man in einer weiten Begriffsumschreibung ebenfalls als eine Art visuelle Suche zu interpretieren. Sie versuchen auf in Form verschiedener Farbkombinationen und Graphen ähnlich Musiker in Bezug zueinander zu setzen, um dem Anwender relevante Musikvorschläge anzeigen zu können.

Der Großteil der bislang vorgestellten Suchdienste fokussierte sich auf bestimmte Themengebiete. Aber auch im Hinblick auf die allgemeine Websuche existieren interessante Ansätze. Dabei stehen vor allem SearchMe und Viewzi im Vordergrund. SearchMe präsentiert die Suchergebnisse z. B. in Form von Screenshots der betreffenden Seiten. Auf den ersten Blick wirkt diese Ergebnispräsentation visuell ansprechend. Die damit verbundenen langen Ladezeiten und der Umstand, dass die Ergebnisse nur schlecht zu lesen sind, spricht zum gegenwärtigen Zeitpunkt jedoch gegen eine dauerhafte Nutzung.

Fazit: Zum gegenwärtigen Zeitpunkte existieren zahlreiche Ansätze, um Suchergebnislisten auf visuellem Wege besser aufzuarbeiten und die Navigation durch komplexe Datenbestände zu unterstützen. Mit Blick auf ihren Verbreitungsgrad muss jedoch konstatiert werden, dass bislang keiner der hier geschilderten Dienste einen hohen Bekanntheitsgrad in der breiten Öffentlichkeit erringen konnte. Ein Grund hierfür mag sicherlich darin bestehen, dass Google nach wie vor auf traditionellem Wege zufrieden stellende Suchergebnisse liefert und ein Großteil der Internetnutzer deshalb nicht nach alternativen Suchansätzen Ausschau hält. Hinzu kommt der Umstand, dass die visuellen Suchmethoden teilweise sehr lange Ladezeiten haben, bis die Suchergebnisse präsentiert werden. Letztendlich setzen zeitbasierte Visualisierungsmethoden ein äußerst komplexes Datenmodell voraus, um verschiedene Sichten auf den Datenbestand zu generieren. Die dazu erforderlichen Techniken – insbesondere im Bereich des semantischen Webs – befinden sich zu großen Teilen noch im Forschungsstadium.

Social Bookmarking und Tagging in der Praxis

9 Jul

von Christian Maaß und Dirk Lewandowski

Algorithmenbasierte Suchmaschinen wie Google und Yahoo sind bereits seid längerer Zeit Gegenstand empirischer und theoretischer Forschungsarbeiten. Trotz der intensiven Auseinandersetzung mit diesem Thema muss jedoch konstatiert werden, dass die Relevanz der Suchergebnislisten dieser Suchmaschinen häufig gering ist [GMPO08]. Es erstaunt daher nicht, dass bereits seid länger Zeit die Frage gestellt wird, inwieweit alternative Suchdienste in qualitativer Hinsicht mit algorithmenbasierten Suchmaschinen konkurrieren und zu einer Verbesserung der Internetsuche beitragen können [Ne05]. Besonders aussichtsreich erscheinen dabei Social-Bookmark-Systeme, bei denen Webseiten nicht von einem Suchmaschinenroboter, sondern von teilweise mehreren tausend Menschen gemeinschaftlich indiziert werden [GMH07]. Sie konnten insbesondere im Zuge der Diskussion um das so genannte Web 2.0 eine große Aufmerksamkeit entfachen [Ma08]. Wie auch für viele Web-2.0-Anwendungen typisch, basiert die Funktionsweise der Bookmarksysteme im Wesentlichen auf Tags: Indem die Anwender Bookmarks mit Schlagworten („Tags“) annotieren und auf einem Social-Bookmark-Dienst wie Mister Wong oder Deli.cio.us im Internet veröffentlichen, tragen sie zu einer Verbesserung der Auffindbarkeit der Bookmarks bei. Aus der Kombination aller im Index vorhandenen Tags entsteht dann ein gemeinschaftlicher und – im Gegensatz zu algorithmischen Suchmaschinen – von Menschen aufgebauter Index, eine so genannte Folksonomie. Sie ermöglicht die Navigation durch das Beziehungsgeflecht von Bookmarks und Tags.

Aus diesen Ausführungen geht hervor, dass die Tagqualität eine zentrale Rolle spielt, damit Social-Bookmark-Systeme befriedigende Suchergebnisse generieren. Erste empirische Untersuchungen deuten aber darauf hin, dass ein Großteil der Bookmarks nicht mit Tags ausgezeichnet wird [Le06]. Es hat sich weiterhin gezeigt, dass die Fehleranfälligkeit menschlicher Eingaben bei der Verschlagwortung und das Fehlen systematischer Beziehungen zwischen den Schlagworten eine Erschließung der Webinhalte durch Tags erschweren [HMD08]. Dies führt zu der grundlegenden Frage, welchen Stellenwert Social-Bookmarking-Systeme im Allgemeinen und das Konzept des Tagging im Speziellen in der Praxis spielen und inwieweit die Anwender mit diesen Anwendungen bzw. Konzepten vertraut sind.

Methodische Vorgehensweise und Beschreibung der Stichprobe

Zur Beantwortung der im vorangegangenen Abschnitt skizzierten Forschungsfrage wurde im Frühjahr 2008 über einen Zeitraum von einer Woche eine Benutzerbefragung auf dem Internet-Portal Lycos durchgeführt. Der Fragebogen wurde dabei nur auf der Suchseite des Portals eingebunden. Insofern konnte in gewissen Grenzen sichergestellt werden, dass vordergründig Anwender an der Umfrage teilnehmen, die zur Befriedigung ihrer Informationsbedürfnisse gezielt auf Suchdienste zurückgreifen. Gerade bei diesen Anwendern liegt es nahe zu hinterfragen, welche Erfahrungswerte sie mit alternativen Suchdiensten wie dem Social Bookmarking und dem in diesen Kontext diskutierten Konzept des Tagging haben.

Der Fragebogen deckte vier Bereiche ab: (1) allgemeine Fragen zu Suchmaschinen, (2) bisherige Erfahrungen der Anwender mit Frage-Antwort-Diensten, (3) Fragen über Kenntnis und Anwendung von Social-Bookmark-Systemen und (4) Erfahrungen im Umgang mit Tags. In diesem Beitrag werden schwerpunktmäßig die Ergebnisse im Hinblick auf die Nutzung von Social-Bookmark-Diensten und die Erfahrungswerte der An-wender mit dem Konzept des Tagging beleuchtet.

An der Umfrage beteiligten sich insgesamt 714 Personen, bei denen zu statistischen Zwecken Daten über das Alter, Geschlecht und Internetnutzung erfragt wurden. Bei 60 % der Befragten handelte es sich um Männer, 32,75 % der Umfrageteilnehmer waren weiblich und 7,25 % gaben keine Angabe zum Geschlecht ab. Etwa 50 % der Befragten nutzt täglich das Internet und 83 % sind mehrmals pro Woche online.

Kurzdarstellung und Diskussion der Ergebnisse

Um eine Aussage zur Bedeutung von Social-Bookmark-Systemen treffen zu können, wurden als Vergleichswerte Fragen zu algorithmischen Suchmaschinen erhoben. Bezüglich der Nutzungsintensivität stellte sich dabei heraus, dass diese Suchmaschinen – wie auch schon in anderen Studien dokumentiert [AGOF08] – zu den bekanntesten und meistgenutzten Internetanwendungen zählen. Knapp 40 Prozent der befragten Anwender (n = 714) nutzen diese Dienste mehrfach pro Woche. Im Gegensatz dazu sind Social-Bookmark-Systeme momentan noch vergleichsweise unbekannt. So gaben 73,51 % der Befragten an, diese Dienste weder zu kennen noch zu nutzen (vgl. Abb. 1). Social-Bookmark-Systeme sind insofern noch nicht in der breiten Bevölkerung bekannt und nach wie vor eine Domäne sehr erfahrener Internetnutzer.

Auch im Hinblick auf die Nutzungsintensität konnten Social-Bookmark-Systeme bislang noch nicht mit algorithmenbasierten Suchmaschinen aufschließen. So stellte sich z. B. heraus, dass knapp 42 % der Befragten Social-Bookmarking-Systeme seltener als einmal im Monat nutzen. Die wichtigsten Gründe für die bislang geringe Nutzungsintensität wurden darauf zurückgeführt, dass bislang kein Verwendungszweck für diese Angebote bestand (40 % der Befragten) oder deren Funktionsweise unklar blieb (26,61 % der Befragten); wie sich im weiteren Verlauf noch zeigen wird, bereitete den Anwendern insbesondere das Konzept des Tagging große Probleme.

Zum jetzigen Zeitpunkt wäre es aufgrund dieses Umstands allerdings verfrüht darauf zu schließen, dass Social-Bookmark-Systeme keine Daseinsberichtigung haben. Vielmehr beklagten auch 60 % der Nutzer algorithmenbasierter Suchmaschinen die fehlende Relevanz der Ergebnislisten oder die hohe und unübersichtliche Zahl der Suchergebnisse. Weiterhin wurden massive Werbeeinblendungen (52 % der Befragten) und tote Links bei Suchmaschinen wie Google und Yahoo als störend empfunden (30 % der Befragten). 75 % der Befragten, die Social-Bookmark-Systeme kennen und nutzen (n =17), gaben jedoch an, dass sie zufrieden bis sehr zufrieden mit diesen Diensten sind. Zum Ver-gleich: Bei algorithmenbasierten Suchmaschinen beläuft sich dieser Wert auf 91,5 %. In Anbetracht des noch frühen Lebenszyklus von Social-Bookmark-Systemen ist dieser hohe Wert beachtlich.

Der im Zuge der Untersuchung gewonnene Eindruck, dass die Bedienung von Social- Bookmark-Diensten auf Probleme stößt, spiegelte sich auch im Hinblick auf das Tagging wider. Bei der Frage, ob Internetnutzer den Begriff Tagging kennen und diese Funktionalität nutzen, gaben 84,12% der Umfrageteilnehmer an, dass ihnen dieses Konzept nicht bekannt sei. 10,07% der Befragten sind zwar mit diesem Konzept vertraut, allerdings nutzen sie die manuelle Verschlagwortung nicht (vgl. Abb. 3). von Social-Bookmark-Systemen ist dieser hohe Wert beachtlich.

Weiterhin stellte sich heraus, dass bei den Befragten grundsätzlich ein geringer Anreiz zur Verschlagwortung besteht (vgl. Abb. 4). So gaben mehr als 50 Prozent der Befragten an, nur selten Tags zu vergeben. Die Gründe für die geringe Akzeptanz lagen vor allem darin, dass die Anwender entweder das Konzept des Tagging nicht verstehen oder bislang keinen Verwendungsgrund für die Verschlagwortung sahen.

Der hohe Unbekanntheits- und Nutzungsgrad des Tagging im Zuge dieser Umfrage lässt sich unter anderem auf das hohe Durchschnittsalter der Befragten zurückführen (vgl. Abschnitt 2), zumal Web-2.0-Dienste bislang überwiegend von jüngeren Bevölkerungsgruppen genutzt werden. Dennoch ist das hier skizzierte Umfrageergebnis alarmierend, zumal die Funktionalität von Web-2.0-Anwendungen im Allgemeinen und die der Social-Bookmark-Systeme im Speziellen auf dem Konzept des Tagging aufbaut. Um die Auffindbarkeit von Bookmarks und damit auch die Qualität dieser Dienste zu verbessern, bedarf es somit einer drastischen Vereinfachung des Tagging. Ein Ansatzpunkt in diese Richtung könnte darin bestehen, den Prozess des Tagging zu automatisieren. Erste Testergebnisse deuten darauf hin, dass auf diesem Wege eine Verbesserung der Annotationen zu erwarten ist [HMD08]. Auch im Zuge dieser Untersuchung stellte sich heraus, dass so ein Ansatz auf großes Interesse stößt: So gaben 40 Prozent der Befragten an, sie wünschen sie eine Vorschlagsfunktion, bzw. sie nutzen eine Vorschlagsfunktion für Tags, wenn der Anbieter entsprechende Funktionalitäten bereitstellt. Im Gegensatz dazu bevorzugen lediglich 8 Prozent der Befragten eine individuelle Verschlagwortung.

Fazit

Unsere Untersuchung hat gezeigt, dass Social-Bookmark-Systeme zum gegenwärtigen Zeitpunkt noch nicht in der breiten Bevölkerung angekommen sind. Der Teil der Befragten, die diese Dienste nutzen, ist mit diesen Angeboten jedoch zufrieden. Als problematisch ist der Umstand anzusehen, dass das Konzept des Tagging (besonders bei älteren Anwendergruppen) auf Probleme stößt. Der Fokus weiterer Forschungsarbeiten sollte vor diesem Hintergrund darauf liegen, das Konzept des Tagging drastisch zu vereinfachen. Auch im Hinblick auf die sich anbahnende Konvergenz des Web 2.0 und semantischen Webs ist dies von höchster Bedeutung: Der Erfolg beider Ansätze basiert im Wesentlichen auf der Qualität der Metadaten.

Der Beitrag wurde in ähnlicher Form für die Konferenz “Mensch & Computer 2008” angenommen. Weitere Studienergebnisse – z. B. im Hinblick auf die Bedeutung von Frage-Antwort-Diensten – werden in Kürze hier veröffentlicht.

Multi-Value Classification of Very Short Texts

14 Jun

by Andreas Heß, Philipp Dopichaj and Christian Maaß

Multi-value text classification is an interesting and very practical topic. In many applications, a single label only is not enough to appropriately classify documents. This is especially true in many applications on the web. As opposed to traditional documents, some texts on the web, especially on Web 2.0 sites, are very short, for example pin-board entries, comments to blog posts or captions of pictures or videos. Sometimes these texts are mere snippets, being at most one or two sentences long. Yet, in some Web 2.0 Applications, labelling or tagging such short snippets does not only make sense but could be the key to success. Therefore we believe it is important to investigate how multi-value text classification algorithms perform when very short texts are classified. To test this, we classified news articles from the well known Reuters data set based only on the headlines and compared the results to older approaches in literature that used the full text. We applied the same algorithm to a dataset from Web 2.0 site Lycos iQ. An empirical evaluation shows that text classification algorithms perform well in both setups.

The remainder of this paper is organised as follows: First, we present a new stacking approach for multi-value classification. By comparing the performance of classifiers trained only on the short headlines of the well-known Reuters news articles benchmark to results achieved with similar classifiers using the full article text we show that classification of very short texts is possible and the loss in accuracy is acceptable. Second, we present an application of text classification for tagging short texts from a Web 2.0-site. We demonstrate that presenting suggestions to the user can greatly improve the quality of tagging.

The paper is accepted for the 31st Annual German Conference on Artifical Intelligence.

Download: Multi-Value Classification of Very Short Texts

Der Markt für Internet-Suchmaschinen

17 Mai

von Christian Maaß, Andre Skusa, Andreas Heß und Gotthard Pietsch

SuchmaschinenmarktMit dem exponentiellen Wachstum des Internets sind Suchmaschinen wie Google und Yahoo zu den meistgenutzten Internetanwendungen avanciert, die etwa 90 Prozent der Internetnutzer in Deutschland regelmäßig zu Recherchezwecken nutzen (vgl. auch AGOF 2008). Insbesondere im Vorfeld von Kaufentscheidungen spielen sie – sowohl für Unternehmen als auch Privathaushalte – eine immer wichtigere Rolle, um gezielt nach bestimmten Produkten und/oder Dienstleistungen zu recherchieren (vgl. Maaß/Scherm 2007). Zur Befriedigung ihrer Informationsbedürfnisse können die Anwender grundsätzlich auf verschiedene Suchmaschinen zurückgreifen; allein für den deutschsprachigen Raum sind weit über hundert verschiedene Suchmaschinen verfüg-bar (vgl. für einen Überblick z. B. www.mysuche.de).

Mit Blick auf die Praxis muss jedoch ein Oligopol algorithmenbasierter Suchmaschinen – bestehend aus Google, Yahoo und MSN – konstatiert werden, dass den weltweiten Markt dominiert und dessen Vormachtstellung man in der Öffentlichkeit bereits seit geraumer Zeit kritisiert. Teilweise wird in diesem Zusammenhang darauf hingewiesen, dass aufgrund dieser Marktkonstellation eine Gefahr für die Informationsvielfalt und -auswahl im Internet besteht, die nahezu durch eine Handvoll Unternehmen mit kommerziellen Interessen beeinflusst wird (vgl. hierzu auch Gasser/Thurman 2007). Zu ähnlichen Äußerungen kommt es seitens der Bundesregierung (vgl. Die Grünen 2005, 2006), die bereits seit längerer Zeit auf die Monopolisierungstendenzen im Suchmaschinenmarkt hinweist und sich für ein größeres Angebot alternativer Suchdienste ausspricht. Grundsätzlich kann man in jüngerer Zeit auch beobachten, dass in zunehmenden Maße Suchmaschinen mit alternativen Suchansätzen in den Markt treten. Exemplarisch hierfür seien die vom Wikipedia-Gründer Jimmy Wales gegründete Suchmaschine Wikia (vgl. www.wikia.com) oder die zahlreichen sozialen Suchdienste genannt, bei denen die Anwender in die Generierung des Indexes bzw. der Suchergebnisse einbezogen werden (vgl. hierzu z. B. Gräfe/Maaß 2008). Immer häufiger wird auch über die Bedeutung der Suche mit mobilen Endgeräten debattiert, in der man einen großen Wachstumsmarkt sieht. In Anbetracht dieser Entwicklungstendenzen drängen sich unweigerlich verschiedene Fragen auf, die mit der Wettbewerbssituation auf dem Suchmaschinenmarkt zusammenhängen:

  • Welche alternativen Suchansätze gibt es?
  • Welche Marktchancen haben Suchmaschinen mit neuen Suchansätzen?
  • Inwieweit ist die Marktposition algorithmenbasierter Suchmaschinen gegenwärtig angreifbar?

Im weiteren Verlauf dieses Beitrags werden diese Fragen ausführlicher diskutiert. Zu diesem Zweck gilt es zunächst die Entwicklung und wirtschaftliche Bedeutung des Suchmaschinenmarktes aufzuarbeiten. Sodann erfolgt auf Basis einer industrieökonomischen Perspektive die Auseinandersetzung mit den hier skizzierten Fragestellungen. Ein Fazit fasst die erarbeiteten Ergebnisse zusammen.

Der Beitrag wird in ähnlicher Form im “Handbuch Suchmaschinen” erscheinen, das von Prof. Dr. Dirk Lewandowski herausgegeben wird und im Sommer/Herbst erscheint.

Download: Der Markt für Internet-Suchmaschinen (First Draft!)