Das iPhone und iPad symbolisieren einen Paradigmenwandel in der Art, wie wir uns im Internet bewegen und welche Möglichkeiten – neben Tastatur und Maus – bestehen, mit Inhalten und anderen Anwendern zu interagieren. Neben der durch das iPhone bekannt gewordenen Touch-Screen-Steuerung, existieren zu diesem Zweck jedoch noch zahlreiche andere Ansätze. Sie befinden sich zwar teilweise noch in einem Forschungsstadium, allerdings haben sie auf absehbare Zeit das Potenzial einer größeren Marktdurchdringung. In Folgendem wird daher ein kompakter Überblick verschiedener Steuerungs-/Bedienkonzepte im Internet gegeben, wobei auf die folgenden vier Bereiche eingegangen wird:
- Projektionsbasierte Touch-Screen-Ansätze
- Bewegungen, Gesten und Sprache als Steuerungselemente
- Ausgewählte Lösungen im Bereich Augmented Reality
- Wearable Internet & Responsive Environment
Projektionsverfahren sind grundsätzlich nicht neu. Im einfachsten Fall stellt bereits ein Beamer ein Projektionsverfahren zur Verfügung, um ein Bild an beliebige Oberflächen zu projizieren. Genau auf diesem Prinzip baut auch die nächste Generation von Projektionsverfahren auf, allerdings mit einem entscheidenden Unterschied: Die Projektionsfläche dient nicht nur der Darstellung, sondern sie fungiert gleichzeitig als berührungsempfindliche Oberfläche, um die Steuerungsbefehle des Anwenders auf Basis verschiedener Bewegungssensoren zu registrieren. Auf diesem Prinzip basiert z. B. Light Touch, ein im Januar dieses Jahres vorgestelltes Projektionsverfahren, das auf dem Prinzip der so genannten Holographic Laser Projection basiert. Die folgende Abbildung skizziert dabei verschiedene – bislang fiktive – Einsatzszenarien.
Eine ähnliches Bedienkonzept stellt der so genannte bidirektionale Bildschirm zur Verfügung, der ebenfalls eine Touch-Screen-Steuerung ermöglicht. Allerdings setzt er zur Anwenderinteraktion nicht auf Bewegungssensoren, sondern auf eine Kamera, die hinter dem Display im Monitor integriert ist. Sie erfasst die Handbewegungen des Anwenders und ermöglicht dadurch – neben der Touch-Screen-Steuerung – eine Computersteuerung, ohne auf die Tastatur oder die Maus angewiesen zu sein.
Ein konsequenter nächster Schritt solcher Bedienkonzepte besteht darin, auch Bewegungen, Gesten und Stimmen zu Steuerungszwecken heranzuziehen. Auf diesem Grundprinzip gründet z. B. auch der Erfolg der Spielkonsole Wii, wo die Bewegungen der Anwender – auf Basis eines bewegungsempfindlichen Controllers – in die Spielsteuerung integriert werden. Aus dem Erfolg der Wii lässt sich bereits heute mit hoher Wahrscheinlichkeit folgern, dass in vielen Bereichen traditionelle Controller (z. B. die Maus, Tastatur, etc.) an Bedeutung verlieren und zunehmend durch Sprache, Bewegungen und Gesten als alternative Steuerungskonzepte verdrängt werden. Das bekannteste Beispiel für einen Ansatz, wo diese drei Steuerungselemente in idealtypischer Form kombiniert miteinander werden, ist das Projekt Natal von Microsoft. Natal nutzt eine mit Sensoren ausgestattete Kamera, um Bewegungen, Gesten sowie die Stimme des Anwenders zu erfassen. Hat Natal einen bestimmten Anwender erkannt, kann er – ähnlich wie bei der Wii von Nintendo – nur mit seinen Bewegungen die betreffende Anwendung steuern ohne jedoch auf traditionelle Controller angewiesen zu sein. Analog der Erkennung eines Spielers, ist es ebenso möglich, bestimmte Gegenstände (z. B. ein Skateboard) zu scannen und in die Spielsteuerung zu integrieren.
Das in diesem Zusammenhang auch die Spracherkennung kein größerer Problembereich mehr darstellt, wurde spätestens mit dem Nexus One deutlich, wo bereits heute die Initiierung von Suchanfragen per Sprache möglich ist. In die gleiche Richtung geht auch der für das iPhone entwickelte Dienst Siri, der das hier angesprochene Prinzip der Spracherkennung aber deutlich erweitert: Ähnlich wie ein persönlicher Assistent im Arbeitsalltag, soll Siri dem Anwender bestimmte Aufgaben abnehmen, um ihm die Arbeit zu erleichtern. Im Zuge einer per Sprache initiierten Suchanfrage nach einem chinesischen Restaurant, würde dieser Dienst – in Abhängigkeit der aktuellen Position des Anwenders – eine Liste mit Restaurantvorschlägen ermitteln, bei denen zuvor den Reservierungsstatus ermittelt wurde. Der Anwender müsste abschließend lediglich eine Auswahl aus den generierten Vorschlägen treffen, um die Reservierung zu bestätigen; eine gelungene Kombination aus Spracherkennung und der Verknüpfung verschiedener Werbservices, zur Realisierung eines innovativen Produkts.
Anwendungen im Bereich Augmented Reality kombinieren häufig verschiedene der zuvor skizzierten Ansätze. Da der Bereich Augmented Reality bereits umfangreich in einschlägigen Blogs dokumentiert wurde, sei an dieser lediglich auf die verschiedenen Lösungsszenarien von Zugara hingewiesen, die in den letzten Monaten immer wieder Aufsehen erregten. Das folgende Video gibt dabei einen guten Überblick, welche Möglichkeiten Augmented Reality im Bereich der Benutzerführung und -interaktion bietet.
Der Begriff „Wearable Internet“ ist auf den ersten Blick zunächst nur ein weiterer Modebegriff. Bei näherer Betrachtung erweist er sich allerdings als sehr treffend, um den technologischen Ansatz Sixth Sense zu umschreiben, der gegenwärtig am MIT entwickelt wird. Den Begriff Sixth Sense steht dabei für die Vision, dass die fünf Sinnesorgane des Menschen in Zukunft durch das Internet zu sechs Sinnen erweitert werden. Zur Realisierung dieser Vision hat das MIT eine Kombination bestehend aus einem Mini-Projektor, einer Webcam und einem Mobiltelefon entwickelt; letztgenanntes fungiert als Verbindung in die Cloud. Im Endeffekt ermöglicht und erweitert diese Bausteinkombination Anwendungsszenarien, wie wir sie bisher nur aus dem Film Minority Report mit Tom Cruise kannten:
- Zur Durchführung eines Telefonanrufs projiziert Sixth Sense z. B. den Tastaturblock eines Telefons auf die linke Handfläche des Anwenders, um auf dieser Grundlage die gewünschte Nummer zu wählen.
- Ebenso lassen sich Fotos aufnehmen, indem einfach mit den Fingern ein Viereck angedeutet wird, um das Fotomotiv zu fixieren.
- Im nächsten Schritt wäre es möglich, verschiedene Fotos an eine beliebige Fläche zu projizieren und durch Handbewegungen zur sortieren, zu vergrößern etc.
Wie funktioniert das genau? Im Kern kombiniert Sixth Sense alle bislang erwähnten Ansätze der Benutzerführung. Die Kamera erkennt – ähnlich wie im Bereich Augmented Reality – Objekte in ihrer Umgebung, zu denen der Mini-Projektor auf einer beliebigen Oberfläche erweiterte Informationen zur Verfügung stellt, die sich wiederum durch Gestiken manipulieren lassen. Gleichzeitig wird das Prinzip des ebenfalls weiter oben erwähnten bidirektionalen Monitors übertragen, usw. Das folgende Video verdeutlicht das Grundprinzip von Sixth Sense im Detail.
Allerdings ist der hier skizzierte Ansatz von Sixth Sense in der gegenwärtigen Form sicherlich noch nicht massentauglich. Sobald die Minitarisierung jedoch weiter voranschreitet und dieses Verfahren z. B. in einer Brille implementiert werden kann, dürfte einer weltweiten Marktdurchdringung keine Grenzen mehr gesetzt sein. Bereits heute liegen die Kosten für Sixth Sense mit US-$ 350 im absolut erschwinglichen Bereich. Bis entsprechend kleine, unauffällige und alltagstaugliche Ausführungen von Sixth Sense verfügbar und auf breiter Ebene etabliert sind, werden nach Aussage der Forscher vom MIT voraussichtlich noch bis zu 10 Jahre vergehen.
Ebenso wie bei Sixth Sense, handelt es sich im übrigen auch bei den weiteren Projekte des MIT Media Labs um interessante Ideen. Beispielsweise werden im Forschungsbereich Responsible Environment gegenwärtig verschiedene Alltagsgegenstände auf Basis verschiedener Sensoren (z. B. Bewegungserkennung, Temperaturerkennung, etc.) mit dem Internet vernetzt, die auf bestimmte Aktionen und Reaktionen von Anwendern mitunter proaktiv reagieren und bestimmte Anwendungsszenarien auslösen.











