Blog
5 Min. Lesedauer
Sereact’s Vision Transformers on unknown, out-of-distribution objects
Bei Sereact lösen wir das alte Problem der Pick and Place Automation für eine Vielzahl von Branchen, vom E-Commerce bis zum Gesundheitswesen. Unser zentrales Computer Vision Modell bildet die Grundlage für das Greifen von Objekten durch Roboter. Es kann Segmentierungen, 3D-Boxen, Greifpunkte und 2-Finger-Greifer für Objekte vorhersagen, die es noch nie zuvor gesehen hat. Aber was wäre, wenn wir das auf die nächste Stufe heben könnten? Was wäre, wenn wir Sprache in diese Anwendung integrieren könnten?
Sprache ist die ideale Schnittstelle, nicht nur für Menschen, sondern auch für Maschinen. Es ist das Interface, das die Welt steuert. Die Fähigkeit, das Verhalten von Systemen durch Sprachbefehle zu verändern, ist das ultimative Ziel der Automatisierung. Sie bringt uns dem Traum eines Roboters näher, der auf ein einfaches Kommando hin ein Zimmer aufräumt.
In der jüngsten Ausschreibung für Startups von Y Combinatorhieß es, die Robotik habe ihren GPT-Moment noch nicht erlebt, aber er stehe kurz bevor. Dem stimme ich voll und ganz zu. Mit den jüngsten Fortschritten bei Vision Language Modellen und Sprachmodellen können wir jetzt unsere Wahrnehmung mit Sprache steuern.
Bei Sereact haben wir PickGPT entwickelt, ein Vision Language Action Model, das in der Lage ist, Roboteraufgaben auf der Grundlage sowohl visueller als auch sprachlicher Eingaben auszuführen. Warum ist das wichtig? Erstens erhöht es die Vielseitigkeit unserer Robotersysteme. Durch die Fähigkeit, Befehle in natürlicher Sprache zu verstehen, können unsere Roboter leicht für verschiedene Aufgaben umprogrammiert werden, ohne dass eine komplexe Programmierung erforderlich ist. Dies ist besonders in dynamischen Umgebungen wie Lagerhäusern oder Krankenhäusern nützlich, wo sich die Aufgaben und die Umgebung häufig ändern können.
Stellen Sie sich einen Kunden vor, der sowohl offene als auch geschlossene Kartons im Bestand hat. Die Herausforderung? Der Roboter soll nur die geschlossenen Kartons greifen und die offenen Kartons unberührt lassen. Das mag nach einer komplexen Aufgabe klingen, ist aber ein perfektes Beispiel dafür, wie man die Flexibilität von Robotersystemen mit Hilfe von Prompts verbessern kann.. Ein Ansatz zur Lösung dieses Problems könnte durch Computer Vision erfolgen. Wir könnten das System darauf trainieren, geöffnete Kartons zu klassifizieren und beim Greifen auszusortieren. Alternativ könnte man die Merkmale der Region of Interest (ROI) vergleichen, um zwischen offenen und geschlossenen Kartons zu unterscheiden. Beide Methoden würden jedoch erhebliche Änderungen in der Anwendung erfordern:
Stattdessen haben wir uns für eine einfachere und flexiblere Lösung entschieden: die Verwendung eines Prompts für die Klassifizierung offener Kartons. Jedes Mal, wenn ein Karton auftaucht, der diesem Prompt entspricht, lässt der Roboter ihn einfach aus. Das Verhalten eines Roboters durch Sprache zu verändern bedeutet nicht, dass wir ständig mit dem Roboter kommunizieren müssen. Es bedeutet vielmehr, dass wir Sprache verwenden, um unsere Robotersysteme robuster und anpassungsfähiger gegenüber anspruchsvollen Bedingungen zu machen. In diesem Fall konnten wir das Problem der offenen Kartons schnell und effizient lösen, indem wir den Roboter anweisen, die Kartons auszusortieren.
Die Möglichkeit, das Verhalten von Systemen durch natürliche Sprache zu verändern, bietet den Kunden ein neues Maß an Flexibilität und Kontrolle. Sie können entscheiden, was ihre Systeme tun sollen, und sie an ihre spezifischen Bedürfnisse anpassen, ohne dass sie über umfangreiche technische Kenntnisse oder Programmierfähigkeiten verfügen müssen. Diese Veränderung der Interaktion stärkt die Nutzer und ermöglicht es ihnen, ihre Systeme besser an ihre Bedürfnisse anzupassen. Die Auswirkungen dieser Fähigkeit gehen jedoch über die Benutzererfahrung hinaus und haben tiefgreifende Folgen für den Entwicklungsprozess selbst.
In der digitalen Welt sind Grenzfälle relativ selten, da die Benutzerinteraktionen typischerweise strukturiert und durch das Anwendungsdesign eingeschränkt sind. Im Gegensatz dazu ist die reale Welt voll von Grenzfällen, und die Fähigkeit eines Systems, mit diesen Ausnahmen umzugehen, bestimmt oft seine Nützlichkeit und Anwendbarkeit. Traditionell erforderten anspruchsvolle Bedingungen in der Robotik eine umfangreiche Kodierung und Schulung, was viel Zeit und Ressourcen in Anspruch nahm. Mit dem Aufkommen großer Sprachmodelle ändert sich dieses Paradigma. Anstatt jeden Grenzfall mühsam zu programmieren und zu trainieren, können Entwickler ihn nun mit einfachen, natürlichsprachlichen Prompts handhaben. Diese Innovation hat weitreichende Konsequenzen für die Robotik. Große Sprachmodelle erweitern den Anwendungsbereich der Robotik und eröffnen neue Möglichkeiten, indem sie mehr Anwendungsfälle, unstrukturierte Szenarien und große Anwendungen ermöglichen. Darüber hinaus führt dieser Ansatz zu einem besseren Return on Investment, da Ressourcen, die bisher für die Codierung und das Training von anspruchsvollen Gegebenheiten aufgewendet wurden, nun anderweitig eingesetzt werden können. Diese Veränderung im Entwicklungsprozess eröffnet nicht nur neue Wege für Innovationen in der sich schnell entwickelnden Welt der Robotik.
Darüber hinaus haben Sprachmodelle inhärente Planungsfähigkeiten. Sie können die Beziehungen zwischen Objekten, Aktionen und Absichten verstehen und diese Informationen nutzen, um Entscheidungen zu treffen. Dies ist entscheidend für komplexe Aufgaben wie das Sortieren und Verpacken von Objekten, bei denen Planung und Sequenzierung unerlässlich sind. Betrachten wir dieses Beispiel: Ich habe GPT-4 folgende Anweisung gegeben:
"Stell dir vor, du bist ein Haushaltsroboter mit Manipulationsfähigkeiten. Du stehst neben mir im Wohnzimmer. Ich sage zu dir: "Bring mir bitte ein Bier". Welche realen Aufgaben musst du in der richtigen Reihenfolge ausführen, um mir das Bier zu bringen?”
Ohne spezielle Beispielprompts oder Training ist es in der Lage, die grundlegenden Befehle zu formulieren, die ein Roboter benötigt, um das Bier zu holen. Nicht nur das – es kann diese Befehle auch in PDDL (Planning Domain Definition Language) ausgeben, was uns die syntaktische Struktur gibt, um sie in Befehle für den Roboter umzuwandeln.
GPT-4-Planungsfunktionen für Roboter
Wir bei Sereact sind begeistert von den Möglichkeiten, die die Sprachfähigkeiten unseren Systemen bieten. Wir glauben, dass dies die nächste Stufe in der Robotik ist und freuen uns darauf, ihr Potenzial zu erforschen. Bleiben Sie also dran, um mehr über unsere Arbeit in diesem Bereich und deren Auswirkungen auf die zukünftige Automatisierung zu erfahren.