Best Paper Award: Multi-value Classification of Very Short Texts
15 Mär

Das Konzept des Tagging – also die manuelle Annotierung von Inhalten durch Anwender – ist ein zentraler Bestandteil zahlreicher Web 2.0-Anwendungen. Allerdings deuten emprische Untersuchungen und Erfahrungswerte aus der Praxis darauf hin, dass viele Anwender dieses Konzept nicht verstehen oder – selbst wenn sie mit dem Tagging vertraut sind – nur selten Tags vergeben. Gleichzeitig besteht das Problem, dass zahlreiche Tags falsch geschrieben werden und die so genannten Tag Clouds im Praxisbetrieb regelrecht ausufern. Es stellt sich daher die Frage, inwieweit man das Konzept des Tagging automatisieren kann, um z. B. eine Annotierung der Inhalte sicherzustellen und evt. Fehler auszuschließen.
Vor diesem Hintergrund haben wir einen Algorithmus zur Textklassifikation von kurzen Texten entwickelt und im Praxisbetrieb evaluiert. Wir zeigen auf, dass auf Basis eines solchen Verfahrens die Qualität der Metadaten gesteigert werden kann.
Der Beitrag wurde auf der Konferenz für künstliche Intelligenz mit dem Best Paper Award ausgezeichnet, der von Springer gesponsort wurde.
Download des Beitrags: Multi-value Classification of Very Short Texts

Multi-value text classification is an interesting and very practical topic. In many applications, a single label only is not enough to appropriately classify documents. This is especially true in many applications on the web. As opposed to traditional documents, some texts on the web, especially on Web 2.0 sites, are very short, for example pin-board entries, comments to blog posts or captions of pictures or videos. Sometimes these texts are mere snippets, being at most one or two sentences long. Yet, in some Web 2.0 Applications, labelling or tagging such short snippets does not only make sense but could be the key to success. Therefore we believe it is important to investigate how multi-value text classification algorithms perform when very short texts are classified. To test this, we classified news articles from the well known Reuters data set based only on the headlines and compared the results to older approaches in literature that used the full text. We applied the same algorithm to a dataset from Web 2.0 site Lycos iQ. An empirical evaluation shows that text classification algorithms perform well in both setups.
