Die Digitale Intelligenz befreit sich aus den Kinderschuhen

Die Fortschritte der Entwicklung von künstlicher Intelligenz rufen eine tiefgreifende Veränderung der Wirtschaft und Gesellschaft hervor. Wenn manchmal die Rede von der digitalen Revolution ist und davon, wie Industrie 4.0 die Arbeitswelt durch Maschine-zu-Maschine-Kommunikation und Effizienzsteigerungen grundlegend verändert, sollte man im Auge behalten, dass dies erst der Anfang einer sehr spannenden Entwicklung ist.

Große Fortschritte werden zum Beispiel auf dem Gebiet der multi-Purpose Algorithmen gemacht. Eine Gruppe dieser Algorithmen kommt aus dem Bereich des „Reinforcement Learnings“. Diese Algorithmen schaffen es ohne Zutun des Menschen, ohne vorab definiertes Wissen, die Ausführung von komplexen Aufgaben zu erlernen. Sie überschreiten dabei die Fähigkeiten des Menschen, wie an dem Beispiel des GO Spielers ersichtlich ist, der durch den Google Deepmind Algorithmus geschlagen wurde.

Im Gegensatz zu traditionellen Algorithmen gibt es im Reinforcement Learning keine Trainings-  und Testdatensätze, sondern es wird aus der Interaktion mit der Umwelt Erfahrung gesammelt und gelernt. Die Fähigkeit der Interaktion mit der Welt – deren Exploration und die Fähigkeit, darauf einzuwirken – wird oft als Vorrausetzung für die Entwicklung „wirklicher“ Intelligenz gesehen.

Reinforcement Learning zeichnet sich dadurch aus, dass

  • eine Interaktion mit der Umwelt stattfindet. -> Der Agent kann über Aktionen auf die Umwelt einwirken.
  • eine Bewertung oder Feedback der „Güte“ dieser Interaktionen mit der Umwelt gemessen werden kann. -> Das heißt die Interaktion auf irgendeine Art und Weise quantifizierbar ist.
  • der Agent / Algorithmus nicht auf Trainingsdaten angewiesen ist (kein a priori Wissen über die Welt, in der er sich bewegt, benötigt wird).

Hier kann ein Reinforcement Algorithmus in Action angesehen werden:

Das Video zeigt, wie ein Algorithmus das Atari Spiel „Breakout “ lernt.  Durch iterative Interaktion mit dem Spiel formt der Algorithmus „on-line“ Hypothesen über das Spiel. Er bewertet seine Interaktion mit dem Spiel über den Score.  Nach 240 Minuten, die der Algorithmus mit dem Spiel verbracht hat, findet er die optimale Strategie, um in kurzmöglichster Zeit den höchsten Score zu erreichen.

Er gräbt sich einen Tunnel durch die Bausteine und ermöglicht dem Ball, hinter die Mauer aus Bausteinen vorzudringen. Dort angelangt, springt der Ball zwischen den Steinen und der Spielbegrenzung hin und her, was zu einer Anhäufung des Scores in kürzester Zeit führt.

Wie funktioniert dieser Algorithmus?

Die Observation / Die Sicht der Welt:

Grob gesehen bildet der Algorithmus die Welt in einer Observation ab. Kritisch daran ist, ob die Observation die richtigen Informationen über die Welt mitteilt. Die Observation ist sozusagen das Mental Model des Algorithmus, und stellt die Basis für das Verständnis der Umwelt dar. In unserem Atari Beispiel stellt das Computerbild unsere Umwelt dar. Oft ist die Umwelt sehr komplex. Das bedeutet, dass diese Komplexität reduziert werden muss – die Definition eines Modelles ist die vereinfachte Darstellung der Realität. Dies kann über Dimensionality Reduction Techniken oder auch durch neuronale Netzwerke bewerkstelligt werden.

Die Aktion:

Anhand der Observation entscheidet der Algorithmus eine Aktion.

Bewertung oder Feedback auf die Aktion (Reward):

Die Welt gibt ein Feedback auf die Aktion. Oft gibt es sowohl sofortiges Feedback als auch ein zeitverzögertes Feedback. Beispielsweise kann sich eine Aktion kurzfristig positiv auswirken, führt jedoch langfristig zu einer Reduktion des „Rewards“ und umgekehrt.

Der Algorithmus

Der Algorithmus

Abb. 1: Der Algorithmus

Source/ Quelle : Lecture Slides David Silver

Der Algorithmus lernt also von der Interaktion mit der Umwelt und schafft es, die Entscheidungen zu treffen, die langfristig zu einem guten Feedback oder einen hohen Reward führen. Doch wie schafft der Algorithmus es, sich die fast menschliche Eigenschaft des voraussehenden Handelns anzueignen?

Die Art und Weise, in der der Algorithmus agiert, ist vergleichbar mit einem Studenten, der darauf verzichtet, am Abend Bier zu trinken: Durch den Genuss von Bier würde ein sofortiges positives Feedback bzw. Reward folgen – vielleicht in Form von Hochgefühlen und Euphorie.

Der Verzicht erlaubt es ihm aber, am nächsten Tag erfolgreich bei seinem Universitätsexamen zu sein, was dem Studenten langfristig ein größeres positives Feedback einhandelt. Beispielsweise könnte es ihm einen guten Job mit gutem Gehalt einbringen.

Dies wiederum würde es ihm vielleicht erlauben, am Wochenende des Öfteren Bier zu trinken.

Der Algorithmus profitiert hier von der Markov Property, die besagt, dass die Zukunft unabhängig von der Vergangenheit ist, also die Observation – unser Stand der Welt – alle relevanten historischen Informationen in sich vereint. Weiterhin beinhaltet der sogenannte Observation Value Informationen über zu erwartende zukünftige Rewards oder Belohnungen.

Zusätzlich dazu erstellt der Algorithmus durch Interaktion mit der Umwelt ein Transitionsmodell, welches die Wahrscheinlichkeiten abbildet, mit denen bestimmte Observationen aufeinander folgen. Diese Wahrscheinlichkeiten können auch abhängig von Aktionen berechnet werden.

Daraus folgt:

  • dass der Algorithmus durch das Transitionsmodell eine Einschätzung besitzt, welche Aktion den Agent mit welcher Wahrscheinlichkeit zur Observation X führen wird und
  • wieviel Reward / Belohnung ab einer bestimmten Observation zu erwarten ist – bei zufällig gewählten Aktionen oder unter der Prämisse einer bestimmten Folge von Aktionen

Langfristige Belohnungsmaximierung

Langfristige Belohnungsmaximierung

Abb. 2: Langfristige Belohnungsmaximierung

Die Logik lässt sich auf ein Atari Beispiel übertragen. In dem Screenshot sehen wir unser Schiff oder Vehikel: bei sofortigem Schießen würde es ein Raumschiff treffen und könnte somit eine sofortige Belohnung/ Reward erwarten. Jedoch hat der Algorithmus gelernt, dass es beim Erscheinen des Mutterschiffs von Vorteil ist, eine potentielle kurzfristige Belohnung zugunsten eines in der Zukunft liegenden Abschießens des Mutterschiffes aufzugeben. Das Mutterschiff bringt langfristig das bessere Feedback, den höheren Score. Der Algorithmus versteht, dass, wenn seine Aktion das Abschießen eines näher gelegenen feindlichen Raumschiffes ist, diese Aktion zu einer Observation führt, von der aus die zu erwartende Belohnung niedrig ist. Im Gegensatz dazu führt das nach rechts Fliegen zu einer Observation, dessen Belohnungserwartung hoch ist, da von dieser Observation aus das Mutterschiff leichter zu erreichen und abzuschießen ist.

Reinforcement Learning Algorithmen haben das Potential, komplexe Aufgaben zu übernehmen. Vorstellbar wären Anwendungen in der Produktion, wo verschiedene Kennzahlen als Score dienen könnten, um dem Algorithmus Feedback zu geben. Produktionszeit per Unit, Ausschuss oder auch Zeit, in der die Fabrik still steht, könnten High-Level Feedback Scores darstellen.