Auf dem Weg zu einer menschenähnlichen Wahrnehmung für selbstfahrende Autos

Forscher der Universität Freiburg haben eine Aufgabe entwickelt,
deren Lösung durch KI-Algorithmen zukünftig komplexere
Umgebungswahrnehmung für autonome Fahrzeuge ermöglichen kann
• Vorgestellt auf der AutoSens-Konferenz im Museum Autoworld in
Brüssel
• Valada: „Wir sind zuversichtlich, dass neue KI-Algorithmen für
diese Aufgabe Roboter in die Lage versetzen werden, die visuelle Erfahrung
nachzuahmen, die Menschen haben, indem sie die vollständige physische
Struktur von Objekten wahrnehmen.“

Wie können mobile Roboter Umgebung korrekt wahrnehmen und einschätzen –
selbst wenn Teile der Umgebung durch andere Objekte verdeckt werden? Das
ist eine zentrale Frage, die für autonomes Fahren gelöst werden muss,
damit zum Beispiel auch in belebten Straßen von Großstädten ein sicheres
Navigieren durch die Umgebung möglich wird. Während der Mensch sich die
vollständige physische Struktur von Objekten vorstellen kann, selbst wenn
diese teilweise verdeckt sind, verfügen die bisherigen Algorithmen der
künstlichen Intelligenz (KI), die es Robotern und selbstfahrenden
Fahrzeugen ermöglichen, ihre Umgebung wahrzunehmen, nicht über diese
Fähigkeit.

Roboter mit KI können sich zwar schon heute selbstständig in ihrer
Umgebung zurechtfinden und durch sie navigieren, wenn sie gelernt haben,
wie diese Umgebung aussieht. Allerdings ist die Wahrnehmung und korrekte
Einschätzung von unbekannten, teilweise verdeckten Dingen und beweglichen
Objekten oder Menschen bislang eine große Herausforderung. Einen großen
Schritt zur Lösung dieses Problems haben nun der Freiburger
Roboterforscher Prof. Dr. Abhinav Valada und Doktorand Rohit Mohan vom
Robot Learning Lab der Universität Freiburg unternommen, den sie in zwei
gemeinsamen Veröffentlichungen vorstellen.

Eine Aufgabe, deren Lösung mehr Sicherheit verspricht

Die beiden Freiburger Wissenschaftler haben die sogenannte amodale
panoptische Segmentierungsaufgabe entwickelt und ihre Lösbarkeit mit Hilfe
von KI-Ansätzen nachgewiesen. Bisher erfassen autonome Fahrzeuge mit Hilfe
von panoptischer Segmentierung die Umgebung. Das bedeutet, dass sie bisher
nur vorhersagen können, welche Pixel eines Bildes zu welchen „sichtbaren“
Regionen eines Objekts wie einer Person oder eines Autos gehören, und
Instanzen dieser Objekte identifizieren können. Was ihnen bisher fehlt,
ist die Fähigkeit, auch die gesamte Form von Objekten vorherzusagen,
selbst wenn diese teilweise von anderen Objekten verdeckt werden. Die neue
Aufgabe der Wahrnehmung mit amodaler panoptischer Segmentierung ermöglicht
dieses ganzheitliche Verständnis der Umgebung.

Amodal meint in diesem Fall, dass von einer teilweisen Verdeckung von
Objekten abstrahiert werden muss – statt sie als Fragmente zu betrachten,
sollten sie in ihrer Ganzheit gesehen werden. So kann eine neue Qualität
der visuellen Umgebungserfassung möglich werden, die für die
Verkehrssicherheit autonom fahrender Autos einen enormen Fortschritt
bedeuten würde.

Potential zur Verbesserung des visuellen Verständnisses städtischer Szenen

Im neuen Aufsatz, der auf der Konferenz IEEE/CVF Computer Vision and
Pattern Recognition Conference (CVPR) veröffentlicht wurde, haben die
Forscher etablierte Benchmark-Datensätze um die neue Aufgabe ergänzt und
öffentlich nutzbar gemacht. Sie rufen Wissenschaftler*innen nun dazu auf,
neue KI-Algorithmen zu entwickeln, um die Aufgabe zu lösen. Ziel dieser
Aufgabe ist es, die pixelgenaue semantische Segmentierung der sichtbaren
Regionen von amorphen Hintergrundklassen wie Straßen, Vegetation, Himmel
und die Instanz-Segmentierung der sichtbaren und verdeckten Objektregionen
von verschiedenen Klassen wie Autos, Lastwagen und Fußgängern zu
erstellen.

Der Benchmark und alle Datensätze sind auf einer Webseite öffentlich
zugänglich und inklusive zweier Lösungsvorschläge zur Verfügung gestellt.
„Wir sind zuversichtlich, dass neue KI-Algorithmen für diese Aufgabe
Roboter in die Lage versetzen werden, die visuelle Erfahrung nachzuahmen,
die Menschen haben, indem sie die vollständige physische Struktur von
Objekten wahrnehmen“, erklärt Valada. „Die amodale panoptische
Segmentierung wird bei nachgelagerten automatisierten Fahraufgaben, bei
denen die Verdeckung eine der Herausforderungen darstellt, wie
Tiefenschätzung, optischer Fluss, Objektverfolgung, Bewegungsvorhersage
usw., erheblich helfen. Mit fortschrittlicheren KI-Algorithmen für diese
Aufgabe kann die visuelle Erkennungsfähigkeit für selbstfahrende Autos
revolutioniert werden. Wenn beispielsweise jederzeit die gesamte Struktur
der Verkehrsteilnehmer*innen wahrgenommen wird, unabhängig von
Teilverdeckungen, kann so das Unfallrisiko erheblich minimiert werden.“

Darüber hinaus könnten automatisierte Fahrzeuge durch Ableitung der
relativen Tiefenanordnung von Objekten in einer Szene komplexe
Entscheidungen treffen, etwa in welche Richtung sie sich zum Objekt
bewegen müssen, um eine klarere Sicht zu erhalten. Um diese
Zukunftsvisionen Realität werden zu lassen, wurde die Aufgabe auf der
Konferenz AutoSens, die im Autoworld Museum in Brüssel stattfand,
Fachleuten der Automobilindustrie vorgestellt.

Faktenübersicht:
• Abhinav Valada ist Juniorprofessor und Leiter des Robot Learning
Lab am Institut für Informatik der Universität Freiburg sowie Mitglied des
Zentrums BrainLinks-BrainTools.
• Er forscht hauptsächlich zu Themen an der Schnittstelle von
Robotik, maschinellem Lernen und Computer Vision wie etwa grundlegende
Probleme der Umgebungswahrnehmung von Robotern, Zustandsschätzung und
Planung mit Hilfe von Lernansätzen, die es Robotern ermöglichen, in
komplexeren Bereichen und unterschiedlichen Umgebungen zuverlässig zu
arbeiten. Sein Ziel ist die Entwicklung von skalierbaren, lebenslang
lernenden Robotersystemen.
• Robot Learning Lab: Das Team um Valada möchte neue Verfahren
entwickeln, die mobilen Robotern ermöglichen, auf sozialverträgliche und
sichere Weise durch belebte Umgebungen wie Fußgängerzonen und Bürgersteige
zu navigieren. Ihr Verhalten lernen die Bots mit Hilfe von Algorithmen,
die auf Teilbereichen der Künstlichen Intelligenz wie Deep Learning und
Reinforcement Learning beruhen.
• Originalveröffentlichungen: Mohan, Rohit, Valada, Abhinav: “Amodal
Panoptic Segmentation”, IEEE/ CVF International Conference on Computer
Vision and Pattern Recognition (CVPR), pp. 21023-21032, 2022.
Mohan, Rohit, Valada, Abhinav: “Perceiving the Invisible: Proposal-Free
Amodal Panoptic Segmentation”: IEEE Robotics and Automation Letters
(RA-L), vol. 7, no. 4, pp. 9302-9309, 2022.
• Weitere Informationen: http://amodal-panoptic.cs.uni-freiburg.de/
• Erklärvideo: „Amodal Panoptic Segmentation“

Kommentar schreiben

JComments