WARNUNG: der folgende Text ist voller Termini technici, Nerd Idiome und Technobabbel. Leser, die sich nur bedingt für Computerkunst und neue Medien interessieren sollten hier aufhören und sich die gesammelten Werke Leonardo da Vinci zur Hand nehmen.
Computer Vision – Maschinelles Sehen für Künstler
von Enkidu rankX © 2010
erstmals veröffentlicht im Magazin Prolog 5.5
Das Thema dieses Artikels lautet: CV – Computer Vision. Computervision ist, wie ein nicht unerheblicher Teil menschlicher Erfindungen ein Produkt militärischer Forschung. Der Vietnamkrieg und speziell das „Weihnachtsbombardements“ (Operation Linebacker II, 1972) ließen die Generäle und Politiker über Sinn und Unsinn weiträumiger (= dummer) Flächenbombardements nachdenken. In den folgenden Jahren wurden verstärkt Anstrengungen unternommen um die Bomben „intelligenter“ zu machen und das vor allem aus Kostengründen: Eine Bombe die ihr Ziel direkt findet ist allemal besser als 10 Bomben, die ihr Ziel nur ungefähr treffen. Eines der Prominentesten Ergebnisse dieser Forschung ist heute in fast allen PKWs zu finden: das GPS (Global Positioning System) dient primär der Steuerung von Mensch und Maschine auf dem Kriegsschauplatz – auch heute noch.
Eine zweite Herangehensweise für die Lenkung „intelligenter“ Bomben sollte die Fernsteuerung nach GPS Koordinaten ergänzen: die Gefechtsköpfe sollten ihr Ziel erkennen und selbstständig ansteuern. Dies bedeutete vor allem eines, nämlich dass man den Computern das Sehen beibringen musste; das konnte weiß Gott nicht so schwer sein.
Mitte bis Ende der 70er Jahre war die Euphorie verflogen. Der Prozess des Sehens erforderte mehr als eine Kamera und ein wenig Software. Sehen bedeutet auch: verstehen was man sieht, und da scheiterten die Maschinen auf ganzer Linie. Wenn die Maschine dies nicht auf traditionellem Wege erlernen konnte, so hatte man vielleicht den falschen Ansatz gewählt. Man ging zurück in die Labore und versuchte folgendes: man baute ein Neuronales Netzwerk (die modellhafte Nachbildung eines biologischen Nervennetzes) – sicherlich konnte ein Computer ‚lernen’ was Sehen ist. Also begann man die neuronalen Netze zu trainieren indem man ihnen z.B. Bilder von Landschaften mit und ohne Panzer zeigte und ihnen wiederholt Feedback gab: richtig / falsch. Nachdem der Computer zufrieden stellende Resultate von sich gab war man sich nun sicher. Man nahm das System und änderte die Spielregeln. Nun zeigte man dem System Bilder von Stadtlandschaften mit und ohne Panzer. Das Neuronennetzwerk scheiterte kläglich. Es hatte zwar gelernt Formen und Farben von Grün in Grün zu unterscheiden – es hatte aber immer noch nicht begriffen, was ein Panzer IST. Denn um zu erkennen was etwas IST müssen wir es zuvor kennen, wir müssen einen Begriff hierfür haben.
Anfang der 80er Jahre war es dann soweit. Den Pauschalgedanken, dem Rechner „das Sehen“ zu vermitteln hatte man im Zuge der Forschungen längst aufgegeben. Vielmehr konzentrierte man sich fortan auf Subsegmente des Problems. Man hatte gelernt, dass man dem CV-System auch einen Katalog von Begriffen mitgeben musste – Dinge, die es kannte bevor sie es wieder erkennen konnte. Das prominenteste Resultat dieser Bemühungen (genannt recognition – Wiedererkennung) prägte eine Ganze Epoche – das Cruise Missile, versehen mit einer Kamera im Gefechtskopf, in der Lage sein Ziel Selbstständig zu Finden (durch beigegebenes Kartenmaterial), so lange darüber zu kreisen bis es aufgefordert wurde das Ziel anzusteuern (welches Ziel war ja vorab programmiert worden) und es zu zerstören.
Möglich wurde diese Technologie durch Fortschritte in der Rechenleistung aber auch in der Mathematik selbst. Ich werde hier nicht weiter eingehen auf die Algorithmen und Berechnungsverfahren die dies möglich machen, eine gute Übersicht hierüber bieten zahlreiche Seiten im Netz. Mich interessieren die Möglichkeiten, die dieses System für die Kunst bietet. Erkunden wir nun kurz, welche Fähigkeiten heutiges Maschinelles Sehen u.a. bereitstellt.
- Da ist zum einen die Fähigkeit Gegenstände zu erfassen. Man nennt dieses Verfahren Objekterkennung (object-recognition). Hierzu werden Umrisse, Farben und Formen analysiert um sie zur Deckungsgleichheit mit dem erwarteten Resultat zu bringen. Ist dies der Fall kann eine Aktion ausgelöst werden. Beispiel: Siehst du einen Kasten mit einem langen Rohr dran der sich auch noch vom Hintergrund Farblich abhebt, stürze dich hinein und explodiere!
- Um Missverständnisse zu vermeiden (es könnte ja auch Ibrahims Schnapsbrenner sein – auch ein Kasten mit einem langen Rohr dran) will man wissen, ob es sich bewegt. Dieses verfahren nennt sich Lageerkennung (position-tracking). Es vergleicht ständig gegenwärtige und vergangene Seheindrücke und vergleicht, ob und wie sich etwas verändert / bewegt hat.
- Nun bewegt Ibrahim seine Anlage regelmäßig, da er keine Lizenz zum Schnapsbrennen hat und nicht von den Behörden erwischt werden will. Also analysiert die Bombe die Wärmesignatur, Oberfläche und Beschaffenheit des Objektes in allerlei Farb- und Lichtspektren (Oberflächeninspektion (object- & surface-recognition)) – nun steht fest: Ibrahim Brenner ist zwar auch heiß aber an der falschen Stelle und außerdem nicht aus Titan – Bingo, Ibrahim ist nicht das Ziel, der Panzer 50 Meter entfernt ist es und Ibrahim wird nur als Kollateralschaden erwischt – kein Kriegsverbrechen, juhu!
- Vielleicht können wir auch noch erkennen, dass da im Umfeld Menschen sind. Nun, wie erkenne ich Menschen? Ganz einfach, die Lösung lautet Gesichtserkennung (face-tracking). Diese Technik hat leider ihren Weg nicht in die Gefechtsköpfe gefunden, dafür aber in die Welt der Überwachung. Wer jemals die Serie 24 gesehen hat weiß, wie fortgeschritten diese Systeme sind. Denn auch wenn vieles an dieser Serie übertrieben ist, die Möglichkeiten der maschinellen Verfolgung und Ortung von Personen durch Gesichtserkennung sind es nicht.
Es gibt noch zahlreiche andere Strategien zur Computervision die ich hier nicht besprechen kann (z.B. Gesten- & Emotionserkennung – gesture-recognition). Das Grundproblem bleibt nach wie vor ungelöst: ein Menschenkind braucht mehrere Monate bis Jahre um sich das eigene Sehen anzueignen und es gibt hierfür keine Abkürzung. Erst müssen die Begriffe her, dann kann auch begriffen werden.
In meiner künstlerischen Arbeit versuche ich nun genau das. Nur dass ich den Maschinen nicht versuche beizubringen, was der Unterschied zwischen einem Leopard II und Ibrahims Schnapsbrenner ist. Vielmehr versuche ich diese Technologie nutzbar zu machen um Kunstwerke zu schaffen, die auf ihren Betrachter „sinnhaft“ reagieren können.
Eine meiner Arbeiten zum Thema möchte ich hier abschließend vorstellen: Es handelt sich um die Installation „Don Quijote – El Caballero de la Triste Figura“ (YouTube.com/watch?v=B9S7-bt7C8Q). In dieser reagiert ein digitales Double meiner selbst auf Bewegungen im Raum (motion-tracking – z.B. von Besuchern der Galerie) und verfolgt sie mit seinem Blick. Durch die Spiegelung des Blickes des Betrachtes wird die Betrachtung selbst zum Thema, der Betrachter wird zum integralen Bestandteil des künstlerischen Prozesses und es entsteht ein Feedbackloop (zu Deutsch: Rückkopplung) zwischen Werk und Werkschauendem.
Wer sich weiter mit dem Thema beschäftigen will, dem seinen folgende Links mit auf den Weg gegeben:
- http://opencv.willowgarage.com/wiki/ – eine kostenlose und quelloffene Distribution von verschiedenen CV Bibliotheken.
- http://www.hangar.org/wikis/lab/doku.php?id=start:puredata_opencv – eine kostenlose und quelloffene Distribution von verschiedenen CV Bibliotheken für Pure Data