Der Sieg der Alphastar-KI in Starcraft 2 wird von Deepmind als großer Fortschritt gefeiert. Doch es gibt skeptische Gegenstimmen.

Deepminds Spiele-KI Alphastar schlug im Dezember die Profispieler Grzegorz “MaNa” Komincz und Dario “TLO” Wünsch in ihrem Gaming-Wohnzimmer “Starcraft 2”. Das Strategiespiel ist kompliziert und setzt Planung voraus.

Nach Aussagen der Entwickler bei Deepmind hatte die KI bei zehn von elf Spielen nur einen übermenschlichen Vorteil: Sie musste die Spielekamera nicht manuell führen und hatte immer die gesamte Karte im Blick.

Bei einer Partie Ende Januar, der elften von elf, hatte sie diesen Vorteil nicht mehr – und verlor das Spiel prompt. Für Deepmind ein Zeichen, dass die KI zuvor tatsächlich dank überlegener Planung gewann und nicht aufgrund anderer Fähigkeiten.

Alphastar klickt schneller und präziser

In einer ausführlichen Analyse zeichnet der Autor Aleksi Pietikäinen jedoch ein anderes Bild: Alphastar spiele – anders als von Deepmind behauptet – sehr wohl mit übermenschlichen Fähigkeiten. Die KI konnte in kritischen Situationen schneller klicken und Einheiten präziser steuern, schreibt Pietikäinen – und liefert Argumente.

Zum Hintergrund: Deepmind hatte vor den Duellen gegen menschliche Gegenspieler einige Fähigkeiten der Alphastar-KI eingeschränkt. Das sollte verhindern, dass die KI sich auf übermenschliche Geschwindigkeit und Präzision verlässt statt auf strategische Planung. Der Wunsch war ein Wettkampf auf Augenhöhe. Vor allem die Anzahl maximaler Klicks pro Minute (Aktionen pro Minute, APM) auf Maus und Tastatur sollte sich auf menschlichem Niveau bewegen.

Sinnvolle Klicks sind schwierig

In einem Strategiespiel wie Starcraft 2 erreichen Profis bis zu 800 Klicks pro Minute. Viele dieser Klicks sind jedoch sogenannte “Spam-Klicks”, gemeint ist das mehrfache Drücken einer Taste für eine einzelne Aktion. Spam-Klicks bieten dem Spieler keinerlei Vorteil und sind ein Nebenprodukt des Versuchs, möglichst viele sinnvolle Aktionen pro Sekunde zu erreichen.

Es ergibt daher Sinn, zwischen Spam-Klicks und sinnvollen Aktionen pro Minute zu unterscheiden. Der Starcraft-Profispieler “Serral” gilt als einer der schnellsten Qualitäts-Klicker: Er erreicht konstant etwas über 300 sinnvolle Aktionen pro Minute – in einer Rekordrunde sogar 344. Andere Profispieler erzielen im Schnitt etwa 200 bis 240 wirkungsvolle Aktionen pro Minute. Serral ist also schon verdammt schnell – und unter anderem deshalb wohl weltweit beste Starcraft-Spieler.

Viele sinnvolle Klicks erlauben ein wesentlich effizienteres Mikromanagement im Spiel. Doch wenn eine KI Tausende sinnvolle Klicks mit extrem hoher Präzision durchführt, kann das etablierte Spielemechaniken ad absurdum führen. Denn Starcraft 2 ist ein von Menschen für Menschen entwickeltes Spiel – dementsprechend ist es auf menschliche Klickfähigkeiten abgestimmt. Wenn diese von einer Maschine überboten werden, zerbricht die Spielelogik.

Ein Beispiel ist die präzise Truppenführung des Micro Bots “Automaton 2000”: Im folgenden Video weicht der Bot konstant Explosionen aus und zerstört so mit einer kleinen Gruppe Standardeinheiten eigentlich überlegene Geschütze.

Für einen Menschen ist diese Taktik unmöglich: Er kann schlicht nicht schnell genug klicken und die Einheiten unabhängig voneinander steuern.

Alphastar sollte anders, menschlicher sein

Die Begrenzung der Aktionen pro Minute sollte Alphastar dazu zwingen, sich auf Strategie und Planung statt Klick-Tempo zu verlassen. Denn wer übermenschliche Geschwindigkeit und Präzision hat, braucht in Starcraft 2 keine komplexe Strategie mehr für den Sieg: “Der Missbrauch der überlegenen Spielkontrolle ist die effizienteste Art, das Spiel zu spielen”, schreibt Pietikäinen. Im Beispiel-Video oben ist das deutlich zu sehen.

Das Problem: Trotz Deepminds Einschränkungen erreichte Alphastar immer wieder Klickwerte weit jenseits seiner menschlichen Gegenspieler. In kurzen Phasen führte er mehr als 1.500 Aktionen pro Minute (25 pro Sekunde) durch, die laut Pietikäinen relevant waren für den Spielverlauf. Gegenspieler Mana lag bei maximal 750 Aktionen pro Minute – davon waren allerdings über 50 Prozent Spam-Klicks.

Hier im Video sichtbar: Alphastar erreichte etwas über 1.500 APM im vierten Spiel gegen MaNa (ab 2:11:32).

Auch Alphastar nutzte Spam-Klicks für die Bewegung der Einheiten. Diese Taktik hatte sich die KI während der ersten Trainingsphase ungewollt bei den Menschen abgeschaut. Doch selbst bei einem ähnlich hohen Anteil an Spam-Klicks wie Mana liegt Alphastar immer noch weit über dessen menschlichem Klick-Vermögen.

Alphastar soll gerade in kritischen Situationen schneller geklickt haben. In der Statistik sind auch Spam-Klicks enthalten, das senkt ihre Aussagekraft. Bild: Google

Für Pietikäinen ist daher klar: Alphastar gewann durch übermenschliche Spielkontrolle und nicht durch clevere Strategien. Zu dieser These passt eine Aussage des Alphastar-Gegners Mana:

“Der beste Aspekt ihres Spiels war die Kontrolle der Einheiten. Immer wenn wir gleich viele Einheiten hatten, gewann Alphastar. Der schlechteste Aspekt war Alphastars Weigerung, die Technologien im Spiel zu entwickeln. Die KI war so überzeugt davon, mit den Basiseinheiten gewinnen zu können, dass sie nahezu nichts anderes machte – und das klappte dann im Live-Match nicht. Es gab nicht viele Momente, in denen die KI durch eine Entscheidung das Spiel veränderte. Ich denke, dass ihre Mechanik den Sieg brachte.”

Pietikäinen wirft Deepmind vor, dass es von diesem Sachverhalt weiß – und ihn nicht thematisiert.

Schlechte Angewohnheiten

Weshalb erlaubt Deepmind Alphastar überhaupt übermenschlich viele Aktionen pro Minute – wenn auch nur für kurze Momente? Pietikäinens Theorie: Alphastar lernte die Spam-Klicks bei menschlichen Spielern. Und Deepmind konnte sie der KI nicht wieder wegtrainieren.

Alphastars zusätzliche Aktionen pro Minute sind also eine Art Puffer, den die KI nutzen kann, um sinnvolle Aktionen durchzuführen oder neue Taktiken auszuprobieren.

Andernfalls droht Stagnation: Wenn Alphastar nur 350 Klicks zur Verfügung hat, aber diese mit Spam-Klicks aufbraucht, gibt es keinen Raum für richtige Aktionen und Experimente.

Ohne übermenschliche Aktionen pro Minute wäre die KI also in der Entwicklung steckengeblieben. Der zusätzliche Puffer holt Deepmind jetzt wieder ein: Alphastar entwickelte so Strategien, die sich auf übermenschliche Geschwindigkeit und Präzision verlassen. Zwar zeigt die KI strategische Ansätze, sonst hätte sie keine Siegchance. Aber sie fokussiert ihre Strategie darauf, ihre hohe Anzahl Klicks pro Minute auszunutzen.

Dass die Vermutungen Pietikäinens zutreffen, ist nicht bewiesen. Sie klingen aber nachvollziehbar und stimmen mit dem beobachtbaren Verhalten der KI in den Spielen überein.

Womöglich wäre Alphastar nicht mehr handlungsfähig, wenn Deepmind die Aktionen pro Minute tatsächlich auf menschliches Niveau einschränken würde – Spam-Klicks eingeschlossen.

Fazit

Auf den ersten Blick ist Deepmind etwas Großes gelungen: Die Forscher haben eine sich selbst trainierende KI entwickelt, die Profispieler in einem komplexen Strategiespiel besiegt. Dass dies bisher noch keiner KI gelang, beweist, dass übermenschliches Klicktempo alleine nicht ausreichen kann. Alphastar zeigt Strategie und Planung, wie sie bisher bei keiner Starcraft-KI zu finden war.

Doch auf den zweiten Blick scheinen Deepminds Einschränkungen der KI nicht grundlegend genug zu sein, um die Abhängigkeit von übermenschlicher Geschwindigkeit und Präzision zu überwinden. Erst der vollständige Verzicht auf diese Abhängigkeit wird komplexere Spielstrategien und mit ihnen klügere KI hervorbringen.

Alphastar zeigt, wie weit die KI-Forschung noch von der Reproduktion der Fähigkeiten des menschlichen Gehirns entfernt ist – trotz der Erfolge.

Weiterlesen über Deepmind:


Tagesaktuelle und redaktionell ausgewählte Tech- und VR-Deals: Zur Übersicht
VRODO-Podcast #130: Learntec 2019 und Pimax 5K+ | Alle Folgen


Unsere Artikel enthalten vereinzelt sogenannte Affiliate-Links. Bei einem Kauf über einen dieser Links erhalten wir eine kleine Provision. Der Kaufpreis bleibt gleich.