-
Natural sciences
- Artificial intelligence not elsewhere classified
- Computer vision
Machineperceptie voor autonoom rijden integreert meerdere sensoren om sensorbeperkingen te overwinnen: camera's voor volledige scènedekking; radar en LiDaR voor afstandsdetectie en omgaan met slecht weer of slecht zicht; radar en toekomstige LiDaR om longitudinale beweging te meten; thermische camera's voor nachtzicht en objectonderscheiding. Vergelijkbare multi-sensor perceptiesystemen zijn geïntegreerd in drones, schepen en autonoom geleide voertuigen in fabrieken.
Realtime weggebruikersdetectie en tracking in bestuurdersassistentiesystemen vertrouwen te-genwoordig op geavanceerd deep learning, onafhankelijk uitgevoerd per sensor en geïntegreerd in een slimme sensor. Dergelijke slimme sensoren produceren geometrische primitieven en hoogwaardige objectbeschrijvingen (bijv. objectklasse). Dit late fusieparadigma dwingt individue-le slimme sensoren echter om vroege beslissingen te nemen over welke informatie (niet) naar het fusiecentrum moet worden verzonden en is verre van optimaal. Vroege fusie fuseert in plaats daarvan direct onbewerkte gegevens door gezamenlijk radar-, LiDaR- en cameragegevens te verwerken in een diep neuraal netwerk (DNN). Vroege fusie kan late fusie overtreffen omdat het zwak bewijsmaeriaal kan exploiteren, dat het fusiecentrum niet bereikt in het geval van late fusie. Niettemin is vroege fusie ongeschikt voor autonoom rijden omdat het alle gegevens tege-lijk verwerkt, waardoor het niet schaalbaar is vanwege de snelle toename van de gegevenssnel-heid met extra sensoren. Bovendien mist het flexibiliteit, waardoor volledige hertraining noodza-kelijk is bij het toevoegen, verwijderen of upgraden van sensoren, en het is niet robuust tegen sensorstoringen.
Het voorstel stelt in plaats daarvan coöperatieve sensorverwerking voor fusie in multimodale sensorsystemen voor. Dit innovatieve paradigma verwijst niet naar coöperatieve multi-agent perceptie, maar in plaats daarvan naar het verbeteren van lokale sensorverwerking in DNN-uitgeruste slimme sensoren met een beperkte hoeveelheid contextinformatie op hoog niveau van andere sensoren of het fusiecentrum. De context omvat (1) kandidaatobjecten die door de andere sensoren zijn gevonden; (2) het vertrouwen dat de andere sensor erin heeft; (3) de de-tectieomstandigheden waarin de andere sensor werkt (bijv. de betrouwbaarheid van de camera is afhankelijk van de lichtomstandigheden); en (4) de context van de scène.
(3) en (4) zijn nieuw en belangrijk: ze stellen één sensor in staat om te beoordelen in hoeverre de context die de andere sensor biedt, te vertrouwen is. Als een radar bijvoorbeeld met grote ze-kerheid beweert dat er voetgangers aanwezig zijn, maar de camera ze niet ziet, kan de camera vervolgens leren dat sommige voetgangers niet zichtbaar zijn op specifieke locaties in de scène (bijvoorbeeld achter de hoek van een gebouw). In plaats van met grote zekerheid uit te voeren dat er geen weggebruiker aanwezig is, voert de camera vervolgens uit dat hij niet kan beslissen, waardoor de context van de scène wordt geleerd. In een ander voorbeeld heeft Dopplerradar moeite om een lege scène te onderscheiden van een onbeweeglijke voetganger. Wanneer een camera een persoon detecteert, kan hij de radar eenvoudig aanvullende context bieden over de vraag of de voetganger in beweging is. Deze context is zeer waardevol voor radar, omdat deze nieuwe functies kan leren om dergelijke situaties effectiever aan te pakken.