Blog

Mathias Mantelli

Wahrnehmung in der Robotik – Werden Roboter schlauer?

Mathias Blogppost Cover Querformat

Du hast wahrscheinlich in den letzten Monaten Videos von Robotern gesehen, die faszinierende Dinge tun. Vielleicht hast du dir dabei gedacht: "Wow, das ist bemerkenswert. Können Roboter das jetzt tun? Sie werden jeden Tag schlauer." Beispiele dafür sind der humanoide Roboter Figure 01, der Objekte manipulieren kann, und der Scythe-Roboter, der autonom Rasen mäht.

Ja, es gibt große Fortschritte bei dem, was Roboter heute können. Aber werden sie auch klüger? Wenn ja, warum und wie? Lassen Sie uns an dieser Stelle einen Moment innehalten und einen Blick auf zwei Probleme werfen, die sich im Zusammenhang mit der Wahrnehmung von Robotern ergeben: Simultane Positionsbestimmung und Kartierung (SLAM) und das Greifen aus Behältern.

Wahrnehmung bei Robotern in Vergangenheit und Gegenwart

Doch zunächst: Was bedeutet "Wahrnehmung" in der Robotik? Für diejenigen, die es nicht wissen: Es bezieht sich auf die Fähigkeit eines Roboters, seine Umgebung mit seinen verschiedenen Sensoren wie Kameras, LiDAR, Radar oder Berührungssensoren zu erfassen und zu interpretieren. Es beinhaltet das Sammeln und Verarbeiten von Sensordaten, um aussagekräftige Informationen über die Umgebung zu extrahieren.

Ausgehend von dieser einfachen Definition kann man sich vorstellen, dass die Wahrnehmung es Robotern ermöglicht, ihre Umgebung zu beobachten, fundierte Entscheidungen zu treffen und autonom in dynamischen und komplexen Umgebungen zu navigieren.

Die Wahrnehmung ist entscheidend für SLAM – ein grundlegendes Problem in der Robotik. Dabei geht es darum, dass ein Roboter in einer unbekannten Umgebung navigiert, während er gleichzeitig eine Karte dieser Umgebung erstellt und sich darin lokalisiert.

Im Jahr 2016 veröffentlichten Cadena und andere Autoren einen wissenschaftlichen Artikel mit dem Titel "Past, Present, and Future of Simultaneous Localization And Mapping: Towards the Robust-Perception Age". In ihrer Arbeit überprüften sie mehr als 30 Jahre Arbeit an SLAM und gruppierten diese Jahre der Arbeit in das klassische Zeitalter (1986-2004), das Zeitalter der algorithmischen Analyse (2004-2015) und das Zeitalter der robusten Wahrnehmung (2015-heute). Lassen Sie uns kurz auf jede dieser Perioden eingehen.

Klassisches Zeitalter: Es werden die wichtigsten Möglichkeiten vorgestellt, wie SLAM mit Unsicherheiten umgeht, z. B. mit erweiterten Kalman-Filtern, Rao-Blackwellized-Partikelfiltern und Maximum-Likelihood-Schätzungen. Es wird auch auf die grundlegenden Herausforderungen eingegangen, um sicherzustellen, dass alles reibungslos funktioniert und die richtigen Daten miteinander verknüpft werden. Zwei Beispiele für SLAM aus dieser Zeit sind unten abgebildet.

Klassisches Zeitalter

Die Darstellung der Umwelt durch Techniken aus dem klassischen Zeitalter. Quelle: links [1], rechts [2]

Generell ist auf dem Bild zu erkennen, dass die ersten vorgeschlagenen SLAM-Systeme in der Lage waren, Hindernisse in der Umgebung zu erkennen und auf der Karte darzustellen. Die am häufigsten verwendeten Sensoren für die Kartierung waren Ultraschall und LiDAR.

Das Zeitalter der algorithmischen Analyse: Die Forscher untersuchten die grundlegenden Eigenschaften von SLAM, z. B. wie gut es Standorte im Laufe der Zeit verfolgt, wie zuverlässig es die richtige Antwort findet und wie es mit großen Datenmengen umgeht. Sie fanden heraus, dass SLAM schneller und besser arbeitet, wenn nur wenige Daten zur Verfügung stehen. Zu diesem Zeitpunkt begannen sie auch mit der Entwicklung der wichtigsten freien SLAM-Software wie Gmapping und ORB-SLAM.

Algorithmic-analysis age

Darstellung der Umwelt durch Techniken aus dem Zeitalter der Algorithmus-Analyse. Quelle: oben [3], unten [4]

Basierend auf den Grundlagen der vorangegangenen Ära wurden Kameras und andere visuelle Sensoren in diesem Zeitalter immer beliebter und der Begriff "Visual-SLAM" wurde eingeführt. Die Gemeinschaft führte auch verschiedene SLAM-Techniken mit 3D-Darstellungen der Umgebung ein.

Zeitalter der robusten Wahrnehmung: Bei SLAM geht es nicht nur darum, Formen abzubilden – das System geht über die grundlegende geometrische Rekonstruktion hinaus, um ein umfassendes Verständnis der Umgebung zu erlangen, das auch Aspekte wie die Bedeutung von Objekten (Semantik) und sogar die Physik berücksichtigt; es konzentriert sich auf relevante Details und filtert das zusätzliche Rauschen aus den Sensordaten heraus, um den Roboter bei der Erfüllung seiner Aufgaben zu unterstützen. Je nachdem, was der Roboter tun muss, passt das System seine Karten an die jeweilige Aufgabe an.

Robuste-Wahrnehmung Zeitalter

Vom Zoox-System erzeugte Darstellung der Umgebung. Quelle: [5]

Vom Zoox-System erzeugte Darstellung der Umgebung. Quelle: [5]

Vom Zoox-System erzeugte Darstellung der Umgebung. Quelle: [5]

Wer sich die Bilder genau anschaut, wird viele Details erkennen. Objekte in der Szene werden als Teile der Umgebung interpretiert, Objekte der gleichen Klasse werden in ihren Bounding Boxes mit der gleichen Farbe markiert und 3D-Daten von LiDAR und Radar werden mit 2D-Bildern von Kameras kombiniert. Außerdem werden verschiedene Objekte kombiniert, um mehr Informationen aus der Szene zu extrahieren, wie im letzten Bild mit dem weißen Auto und seinen Blinkern, Rückfahr- und Bremslichtern zu sehen ist.

Wahrnehmung beim Bin Picking

Bin Picking ist eine grundlegende Herausforderung für die industrielle Bildverarbeitung und Robotik. Der Roboterarm ist mit Sensoren ausgestattet, um Objekte mit unterschiedlichen Orientierungen effizient aus einem Behälter (oder Container) zu greifen, sei es mit einem Sauggreifer, einem Parallelgreifer oder einem anderen Roboterwerkzeug. Obwohl es sich hierbei um ein anderes Problem handelt, das in der Arbeit von Cadenas nicht erwähnt wird, können die gleichen Stufen von SLAM meiner Meinung nach hier angewendet werden.

Einer der populärsten Ansätze für dieses Problem basiert auf der Registrierung von Point Clouds (PC) aus der Zeit der Algorithmusanalyse. Die 3D-Form des zu entnehmenden Artikels sollte im Voraus bekannt sein und Sensoren wurden verwendet, um den Behälter vor jeder Entnahme abzutasten. Aus diesem Scan wurde eine 3D-PC generiert, die dann an einen PC-Registrierungsalgorithmus gesendet wurde. Dieser Algorithmus war dafür verantwortlich, eine Übereinstimmung zwischen dem entnommenen Gegenstand und dem PC im Behälter zu finden. Die folgende Abbildung veranschaulicht diesen Prozess.

Bin picking 2017

Roboter-Kommissionierung mit PC-basiertem Ansatz. Quelle: [7]

Obwohl dieser Ansatz damals funktionierte, sind seine Grenzen leicht zu erkennen.  So kann es z.B. nur einen Artikeltyp pro Lagerplatz geben, da sonst der Rechenaufwand, um mehrere Kommissionierartikel mit dem Lagerplatzrechner abzugleichen, enorm wäre. Außerdem kann dieser Ansatz nicht schnell skaliert werden, da für neue Artikel der Artikel gescannt werden müsste, um seine 3D-Form zu generieren (oder die CAD-Dateien vom Hersteller angefordert werden müssten). Im Zeitalter der robusten Wahrnehmung wird auch der neue Ansatz des Bin-Picking eingeführt.

Die Verbesserung der Wahrnehmung dieses Problems und ein besseres Verständnis der Szene (Semantik) würden die Leistung der Roboter erheblich beeinflussen. Genau das tut Sereact, indem es große linguistische und visuelle Sprachmodelle (LLMs bzw. VLMs) in das System von Sereact integriert.

Das System ist in der Lage, den Ausgangsbehälter zu leeren, auch wenn sich verschiedene Arten von Objekten darin befinden. Darüber hinaus hat das Sereact-System einen Generalisierungsgrad erreicht, der es ihm ermöglicht, neue Elemente (Elemente, die das System noch nie zuvor gesehen hat) sofort zu erkennen.

Chat interface von Sereact PickGPT, Quelle: [8]

Neben der Fähigkeit, sich schnell an neue Objekte anzupassen, kann es dank dieser verbesserten Wahrnehmung auch andere Befehle auf menschlichem Niveau ausführen, wie z. B. "Nimm alles Essen", "Nimm das Spielzeug" oder sogar "Gib mir die Gegenstände, mit denen ich spielen kann". Im obigen Beispiel sehen wir, wie das System von Sereact den zerbrochenen Gegenstand aus dem Bin holt.

Nachdem wir nun die Entwicklung der Wahrnehmung in der Robotik betrachtet haben, können wir zum eigentlichen Teil dieses Artikels übergehen.

Die Auswirkungen und das Tempo der Entwicklung in der Wahrnehmung der Robotik

Ich habe einige Bilder von den Hauptwerken jeder Epoche eingefügt, nicht nur, um diesen Artikel lesbarer zu machen. Wenn Sie sich die Bilder aus der klassischen Epoche ansehen, werden Sie feststellen, dass wir kaum in der Lage waren, die Hindernisse in der Umgebung darzustellen. Die meisten Karten wurden in 2D erstellt, wodurch die 3D-Hindernisse in der Umgebung platt gedrückt wurden. Die verschiedenen Objekte in der Umgebung wurden alle als "Hindernisse" bezeichnet, und solange die Roboter ihnen ausweichen konnten, war alles in Ordnung.

Mit den Fortschritten bei den visuellen Sensoren verbesserte die Ära der algorithmischen Analyse die Wahrnehmung durch mehr 3D-Karten und das Hinzufügen von Farben zur Umgebung. Obwohl ich es nicht erwähnt habe, begann diese Ära auch damit, dynamische Teile der Szene herauszufiltern. Der größte Unterschied zwischen 2004 und 2015 ist also die Erforschung von 3D-Karten und das Hinzufügen von Farbinformationen zu diesen Karten. Ich weiß, dass ich die Dinge hier vereinfache, aber was ich sagen will, ist, dass sich die Wahrnehmung in der Robotik in den letzten 11 Jahren nicht wirklich weiterentwickelt hat.

Andererseits lässt das Zeitalter der robusten Wahrnehmung die beiden anderen Zeitalter verblassen. Ich erinnere mich noch daran, wie ich 2016 Cadenas Arbeit las, als ich meinen Antrag für das Promotionsprojekt schrieb. In dieser Arbeit gab es einen Satz, der mir im Gedächtnis geblieben ist:

“the limitations of purely geometric maps have been recognized and this has spawned a significant and ongoing body of work in the semantic mapping of environments, to enhance robot’s autonomy and robustness, facilitate more complex tasks (e.g. avoid muddy-road while driving), move from path-planning to task-planning, and enable advanced human-robot interaction.”

Wenn man darüber nachdenkt, ist das sehr sinnvoll. Bis 2015 konzentrierte sich die Wahrnehmung in der Robotik auf den Aufbau einer soliden Basis (in Bezug auf Ansätze und Techniken) und deren Verbesserung. Sobald dieser Teil robust genug war, erkannten die Forschungsgemeinschaft und die Industrie, dass die Kennzeichnung der Umgebung als "frei", "besetzt" oder "unbekannt" nicht ausreichte. Man entschied sich für die Semantik, d.h. die Ableitung von Informationen auf hoher Ebene aus der Umgebung, einschließlich, aber nicht beschränkt auf Namen und Kategorien der verschiedenen Objekte, Räume und Orte.

Ich bin erstaunt, dass Zoox und Sereact zwischen 2015 und 2020 ein solches Verständnis der Umwelt erreicht haben. Lassen Sie uns einige Details besprechen, und ich werde die Bilder hier wieder einfügen, damit Sie nicht nach oben scrollen müssen.

Im unteren Teil können Sie sehen, dass das autonome Auto verstehen kann, wenn Menschen sitzen und nicht gehen. Es kann auch menschliche Gesten verstehen, was bedeutet, dass es weiterfahren kann.

photo 2024-05-07 12.57.48

Vom Zoox-System erzeugte Darstellung der Umgebung. Quelle: [5]

Im anderen Fall weiß das Auto, dass sich eine Person mit Warnweste und Bauhelm in der Nähe befindet. Außerdem hält sie ein Verkehrsschild in der Hand. Das bedeutet, dass diese Person kein normaler Mensch ist, sondern ein Straßenarbeiter, der das Auto zum Anhalten auffordert.

Robuste-Wahrnehmung Zeitalter

Vom Zoox-System erzeugte Darstellung der Umgebung. Quelle: [5]

Schließlich erkennt das Auto, dass ein geparktes Auto eine seiner Türen geöffnet hat und eine Person aussteigen könnte. In dieser Situation fährt das Zoox-Auto vorsichtiger, um Unfälle zu vermeiden.

Vom Zoox-System erzeugte Darstellung der Umgebung. Quelle: [5]

Ich habe bereits erwähnt, dass ich auch über die Verbesserung der Wahrnehmung im Bereich Bin Picking sprechen werde. Hier ist ein Beispiel von Sereact. In diesem Fall bittet der Mensch den Roboter, den beschädigten Gegenstand aus dem Behälter zu nehmen. Der Ausgangsbehälter enthält sechs Dosen Pringles, von denen eine beschädigt ist. Der Wahrnehmungsteil des Systems erkennt dies und wählt die defekte Dose aus.

Sereact's PickGPT führt Befehl aus, Source: [8]

Zusammenfassung

Wir leben im Zeitalter der robusten Wahrnehmung, in dem die Wahrnehmung in der Robotik die Semantik der Umgebung berücksichtigt. Dies ermöglicht es Robotern, Aufgaben auf hohem Niveau auszuführen, wie z. B. das Auffinden zerbrochener Gegenstände in einem Behälter, wie von Sereact demonstriert, oder die Vorhersage von Unfällen, wie von Zoox. Für uns Menschen ist es ziemlich offensichtlich und leicht zu verstehen, was "kaputt" bedeutet, aber kann man definieren, was "kaputt" bedeutet? Es ist fast unmöglich, Regeln und Merkmale festzulegen, die diesen Zustand für alle Artikel in einem Lager beschreiben (eine verformte Dose unterscheidet sich beispielsweise von einer zerbrochenen Tasse).

Hinter diesem semantischen Verständnis stehen LLM und VLM, die textuelle und visuelle Informationen kombinieren. Nur wenn Roboter verstehen, dass die Kleidung einer Person bedeutet, dass sie verschiedene Rollen in der Szene hat (wie wir es bei dem Straßenarbeiter gesehen haben), können sie richtig auf diese Person reagieren.

Die Roboter machen von Tag zu Tag faszinierendere Dinge. Ich glaube, dass diese rasante Verbesserung darauf zurückzuführen ist, dass die Roboter ihre Umgebung semantisch verstehen. Heutzutage sehen wir Roboter, die sich dem Menschen anpassen und nicht umgekehrt.

Natürlich hat sich auch die Hardware der Roboter stark verbessert. Ich schreibe diesen Artikel in der gleichen Woche, in der Boston Dynamics den hydraulischen Atlas in Rente geschickt und die vollelektrische Version auf den Markt gebracht hat. Ich glaube jedoch, dass die Verbesserung der Software für die Wahrnehmung von Robotern, die anspruchsvolle Aufgaben ausführen, von größerer Bedeutung ist.

Auf die Hauptfrage in diesem Artikel habe ich eine Antwort. Ich habe einmal gehört, dass ein Mensch dann intelligent ist, wenn er weiß, wie er sein Wissen anwenden kann, anstatt es nur anzuhäufen. Wenn wir also davon ausgehen, dass Roboter ihr "neues" Wissen nutzen, um komplexere Aufgaben zu lösen, werden sie tatsächlich intelligenter.

Quellen

  1. Newman, Paul, et al. “Explore and return: Experimental validation of real-time concurrent mapping and localization.” ICRA, 2002.
  2. Thrun, Sebastian. “An Online Mapping Algorithm for Teams of Mobile Robots”. Carnegie-Mellon Univ Pittsburgh PA School of Computer Science, 2000.
  3. Mur-Artal, R., Montiel, J.M.M., and Tardos, J.D. “ORB-SLAM: a versatile and accurate monocular SLAM system.” IEEE Transactions on Robotics. 2015.
  4. Grisetti, G., Stachniss, C., and Burgard, W. “Improving grid-based slam with rao-blackwellized particle filters by adaptive proposals and selective resampling.” ICRA. 2005.
  5. Entnommen aus https://www.youtube.com/watch?v=5E2NYmgvo3E
  6. Cadena C, Carlone L, Carrillo H, Latif Y, Scaramuzza D, Neira J, Reid I, Leonard JJ. Past, present, and future of simultaneous localization and mapping: Toward the robust-perception age. IEEE Transactions on robotics. 2016.
  7. Entnommen aus https://www.youtube.com/watch?v=gRV4KvIDn9Y&ab_channel=T³TipsTricksTests
  8. Entnommen aus https://www.youtube.com/watch?v=_ieObX5f_ws&ab_channel=Sereact