The Predicting Swarm: Evolving Collective Behaviors for Robot Swarms by Minimizing Surprise

Tanja Katharina Kaiser

Abstract

Roboterschwärme sind dezentralisierte kollektive Systeme einfacher verkörperter Agenten, die autonom handeln und sich nur auf lokale Informationen stützen. Solche großen MultiRoboter-Systeme können im Vergleich zu einzelnen Robotern aufgrund ihrer potenziell höheren Robustheit und Skalierbarkeit von Vorteil sein. Die Entwicklung von Steuerungen für Roboterschwärme ist jedoch eine Herausforderung, da man bei der Implementierung eines gewünschten Schwarmverhaltens lokale Wechselwirkungen zwischen den Robotern
sowie zwischen Robotern und der Umgebung berücksichtigen muss.
Eine Alternative ist die automatische Entwicklung von Schwarmrobotersteuerungen mit Methoden der evolutionären Robotik. Da evolutionäre Algorithmen Fitness potenziell auf jedem möglichen
Weg maximieren, können unerwünschte Nebeneffekte auftreten, wenn eine aufgabenspezifische Fitnessfunktion nicht genau genug spezifiziert wurde. Im Gegensatz dazu vermeiden aufgabenunabhängige Fitnessfunktionen die spezifische Formulierung von Belohnungen, aber garantieren nicht, dass sich gewünschte Verhaltensweisen entwickeln.
Unser Minimize Surprise (zu Deutsch etwa Überraschungsminimierung) Ansatz basiert auf einer solchen aufgabenunabhängigen Fitnessfunktion, um vielfältige kollektive Verhaltensweisen für Roboterschwärme zu evolvieren. Überraschung, hier in seiner einfachsten Form, ist die Differenz zwischen beobachteten und vorhergesagten Sensorwerten. Wir minimieren Überraschung über Generationen, indem wir jedes Schwarmmitglied mit einem Aktor-Prädiktor-Paar aus künstlichen neuronalen Netzen ausstatten und direkten Selektionsdruck auf den Prädiktor ausüben. Der Aktor wird nur indirekt aufgrund der Kombination mit einem Prädiktor belohnt, sodass Schwarmverhalten als erwünschtes Nebenprodukt entstehen.
Im ersten Teil dieser Arbeit befassen wir uns mit Minimize Surprise als Methode. In einem einfachen simulierten Selbstassemblierungsszenario zeigen wir die Effektivität unseres Ansatzes im Vergleich zu zufälliger Suche, die Skalierbarkeit der entwickelten Verhaltensweisen mit der Schwarmdichte sowie die Robustheit der Evolution gegenüber Sensorrausche n und der entstehenden Verhaltensweisen gegenüber Beschädigungen der selbstassemblierten Struktur. Wir zeigen zudem, dass die resultierende Verhaltensvielfalt unseres Standardansatzes zur Minimierung von Überraschungen mit der Verhaltensvielfalt
konkurriert, die durch aufgabenunabhängige Varianten der Novelty Search (zu Deutsch etwa Neuheitensuche) und MAP-Elites Ansätze entstehen. Darüber hinaus zeigen wir, dass Selbstorganisation in unserem Minimize Surprise Ansatz durch die Vordefinition einiger oder aller Sensorvorhersagen in Richtung gewünschter Verhalten gelenkt werden kann. In einer realistischeren Simulation veranschaulichen wir, wie Modifikationen der Umgebung (z. B. dynamische Änderung der Hindernispositionen), der Agenten (z. B. Teilen des Akkustandes) und der Fitnessfunktion (z. B. Hinzufügen einer Belohnung für Homing (zu Deutsch etwa Heimkehr-Verhalten) die Evolution von Verhalten beeinflussen
können. Im zweiten Teil dieser Arbeit untersuchen wir die Evolution kollektiver Verhaltensweisen mit Minimize Surprise in verschiedenen Anwendungsszenarien. Wir evolvieren Verhalten zur kollektiven Entscheidungsfindung für eine Aufgabe im Bereich kollektiver Wahrnehmung im realistischen BeeGround-Simulator und kollektives Bauverhalten in einer einfachen 2D-Torus-Gitterwelt. Darüber hinaus machen wir den Schritt in die reale Welt und evolvieren grundlegende Schwarmverhalten und Verhalten der Objektmanipulation im realistischen Webots-Simulator und auf Schwärmen echter Thymio II-Roboter. Dazu verwenden wir einen evolutionären Ansatz für Minimize Surprise bei dem Verhalten direkt auf den Robotern während ihrer Einsatzzeit in der echten Arena evolviert werden.
Insgesamt zeigen wir, dass unser Minimize Surprise Ansatz die effektive Entwicklung von vielfältigen, robusten und skalierbaren Schwarmverhalten für eine Vielzahl von Anwendungsszenarien in einfachen Simulationen, realistischen Simulatoren und in Experimenten in der echten Welt ermöglicht. Darüber hinaus zeigen wir, dass die Evolution durch Modifikation der Umgebung, des Robotermodells und der Prädiktorausgaben in Richtung gewünschter Verhalten gelenkt werden kann. Da Minimize Surprise potenziell die permanente Anpassung an unvorhergesehene Situationen ermöglicht, kann es dazu beitragen die Herausforderungen der Robotik zu lösen.
OriginalspracheDeutsch
QualifikationDoctorate
Gradverleihende Hochschule
  • Universität zu Lübeck
Betreuer/-in / Berater/-in
  • Berekovic, Mladen, Betreuer*in
Datum der Vergabe29.08.2022
PublikationsstatusVeröffentlicht - 2022

Strategische Forschungsbereiche und Zentren

  • Zentren: Zentrum für Künstliche Intelligenz Lübeck (ZKIL)

DFG-Fachsystematik

  • 407-01 Automatisierungstechnik, Regelungssysteme, Robotik, Mechatronik, Cyber Physical Systems
  • Bernd-Fischer-Preis 2023

    Kaiser, Tanja Katharina (Preisträger*in), 10.11.2023

    Auszeichnung: Preise der Universität zu Lübeck

Zitieren